Statistiques - Qualité de l'ajustement

Le test de qualité de l'ajustement est utilisé pour vérifier si les données de l'échantillon correspondent à une distribution d'une population. La population peut avoir une distribution normale ou une distribution de Weibull. En termes simples, cela signifie que les données d'échantillonnage représentent correctement les données que nous nous attendons à trouver dans la population réelle. Les tests suivants sont généralement utilisés par les statisticiens:

  • Chi carré

  • Kolmogorov-Smirnov

  • Anderson-Darling

  • Shipiro-Wilk

Test du chi carré

Le test du chi carré est le plus couramment utilisé pour tester la qualité des tests d'ajustement et est utilisé pour les distributions discrètes comme la distribution binomiale et la distribution de Poisson, tandis que les tests de qualité d'ajustement de Kolmogorov-Smirnov et Anderson-Darling sont utilisés pour les distributions continues .

Formule

$ {X ^ 2 = \ sum {[\ frac {(O_i - E_i) ^ 2} {E_i}]}} $

Où -

  • $ {O_i} $ = valeur observée du i ème niveau de variable.

  • $ {E_i} $ = valeur attendue du i ème niveau de variable.

  • $ {X ^ 2} $ = variable aléatoire chi carré.

Exemple

Une entreprise de jouets construit des jouets pour joueurs de football. Il affirme que 30% des cartes sont des mid-fielders, 60% des défenseurs et 10% des attaquants. Considérant un échantillon aléatoire de 100 jouets, il y a 50 mid-fielders, 45 défenseurs et 5 attaquants. Étant donné le niveau d'importance de 0,05, pouvez-vous justifier la réclamation de l'entreprise?

Solution:

Déterminer des hypothèses

  • Hypothèse Null $ H_0 $ - La proportion de milieu de terrain, de défenseurs et d'attaquants est respectivement de 30%, 60% et 10%.

  • Hypothèse alternative $ H_1 $ - Au moins une des proportions de l'hypothèse null est fausse.

Déterminer le degré de liberté

Les degrés de liberté, DF est égal au nombre de niveaux (k) de la variable catégorielle moins 1: DF = k - 1. Ici les niveaux sont 3. Ainsi

$ {DF = k - 1 \\ [7pt] \, = 3 -1 = 2} $

Déterminer la statistique du test du chi carré

$ {X ^ 2 = \ sum {[\ frac {(O_i - E_i) ^ 2} {E_i}]} \\ [7pt] \, = [\ frac {(50-30) ^ 2} {30}] + [\ frac {(45-60) ^ 2} {60}] + [\ frac {(5-10) ^ 2} {10}] \\ [7pt] \, = \ frac {400} {30} + \ frac {225} {60} + \ frac {25} {10} \\ [7pt] \, = 13,33 + 3,75 + 2,50 \\ [7pt] \, = 19,58} $

Déterminer la valeur p

La valeur P est la probabilité qu'une statistique du khi carré, $ X ^ 2 $ ayant 2 degrés de liberté soit plus extrême que 19,58. Utilisez le calculateur de distribution du chi carré pour trouver $ {P (X ^ 2 \ gt 19,58) = 0,0001} $.

Interpréter les résultats

La valeur P (0,0001) étant bien inférieure au niveau de signification (0,05), l'hypothèse null ne peut pas être acceptée. La réclamation de l'entreprise n'est donc pas valide.