Statistiques - Test de Kolmogorov Smirnov

Ce test est utilisé dans des situations où une comparaison doit être faite entre une distribution d'échantillons observée et une distribution théorique.

Test d'échantillon KS One

Ce test est utilisé comme test de qualité d'ajustement et est idéal lorsque la taille de l'échantillon est petite. Il compare la fonction de distribution cumulative d'une variable avec une distribution spécifiée. L'hypothèse null ne suppose aucune différence entre la distribution observée et la distribution théorique et la valeur de la statistique de test «D» est calculée comme suit:

Formule

$ D = Maximum | F_o (X) -F_r (X) | $

Où -

  • $ {F_o (X)} $ = Distribution de fréquence cumulée observée d'un échantillon aléatoire de n observations.

  • et $ {F_o (X) = \ frac {k} {n}} $ = (nombre d'observations ≤ X) / (nombre total d'observations).

  • $ {F_r (X)} $ = La distribution de fréquence théorique.

La valeur critique de $ {D} $ se trouve dans les valeurs de la table KS pour un test d'échantillon.

Critères d'acceptation: Si la valeur calculée est inférieure à la valeur critique, acceptez null hypothèse null .

Critères de rejet: si la valeur calculée est supérieure à la valeur du tableau, rejetez null hypothèse null .

Exemple

Énoncé du problème:

Dans une étude réalisée à partir de divers volets d'un collège, 60 étudiants, avec un nombre égal d'étudiants tirés de chaque volet, sont interrogés et leur intention de rejoindre le Drama Club of college a été notée.

B.Sc. BA B.Com MA M.Com
Non dans chaque classe 5 9 11 16 19

Il était prévu que 12 élèves de chaque classe se joindraient au Drama Club. Utiliser le test KS pour trouver s'il y a une différence entre les classes d'élèves quant à leur intention de rejoindre le Drama Club.

Solution:

$ {H_o} $: Il n'y a pas de différence entre les étudiants de différentes filières en ce qui concerne leur intention de rejoindre le club de théâtre.

Nous développons les fréquences cumulées pour les distributions observées et théoriques.

Ruisseaux Nombre d'étudiants intéressés à rejoindre $ {F_O (X)} $ $ {F_T (X)} $ $ {| F_O (X) -F_T (X) |} $
Observé
(O)
Théorique
(T)
B.Sc. 5 12 5/60 12/60 7/60
BA 9 12 14/60 24/60 10/60
B.COM. 11 12 25/60 36/60 11/60
MA 16 12 41/60 48/60 7/60
M.COM. 19 12 60/40 60/60 60/60
Total n = 60

La statistique de test $ {| D |} $ est calculée comme suit:

$ D = Maximum {| F_0 (X) -F_T (X) |} \\ [7pt] \, = \ frac {11} {60} \\ [7pt] \, = 0,183 $

La valeur du tableau de D au niveau de signification de 5% est donnée par

$ {D_0.05 = \ frac {1.36} {\ sqrt {n}}} \\ [7pt] \, = \ frac {1.36} {\ sqrt {60}} \\ [7pt] \, = 0.175 $

Étant donné que la valeur calculée est supérieure à la valeur critique, nous rejetons donc l'hypothèse null et concluons qu'il existe une différence entre les étudiants de différents courants dans leur intention de rejoindre le Club.

Test de deux échantillons KS

Lorsque, au lieu d'un seul, il y a deux échantillons indépendants, le test KS à deux échantillons peut être utilisé pour tester l'accord entre deux distributions cumulatives. L'hypothèse null indique qu'il n'y a pas de différence entre les deux distributions. La statistique D est calculée de la même manière que le test KS One Sample.

Formule

$ {D = Maximum | {F_n} _1 (X) - {F_n} _2 (X) |} $

Où -

  • $ {n_1} $ = Observations du premier échantillon.

  • $ {n_2} $ = Observations du deuxième échantillon.

On a vu que lorsque les distributions cumulatives montrent une grande déviation maximale $ {| D |} $, cela indique une différence entre les deux distributions d'échantillon.

La valeur critique de D pour les échantillons où $ {n_1 = n_2} $ et est ≤ 40, la table KS pour deux cas d'échantillon est utilisée. Lorsque $ {n_1} $ et / ou $ {n_2} $> 40, la table KS pour les grands échantillons de deux échantillons de test doit être utilisée. L'hypothèse null est acceptée si la valeur calculée est inférieure à la valeur du tableau et vice-versa.

Ainsi, l'utilisation de l'un de ces tests non paramétriques aide un chercheur à tester la signification de ses résultats lorsque les caractéristiques de la population cible sont inconnues ou qu'aucune hypothèse n'a été émise à leur sujet.