Statistiques - Analyse résiduelle

L'analyse résiduelle est utilisée pour évaluer la pertinence d'un modèle de régression linéaire en définissant les résidus et en examinant les graphiques des parcelles résiduelles.

Résiduel

Résiduel ($ e $) fait référence à la différence entre la valeur observée ($ y $) et la valeur prédite ($ \ hat y $). Chaque point de données a un résidu.

$ {résiduel = valeur observée - valeur prédite \\ [7pt] e = y - \ chapeau y} $

Terrain résiduel

Un tracé résiduel est un graphique dans lequel les résidus sont sur l'axe vertical et la variable indépendante est sur l'axe horizontal. Si les points sont dispersés de façon aléatoire autour de l'axe horizontal, un modèle de régression linéaire est approprié pour les données; sinon, choisissez un modèle non linéaire.

Types de tracé résiduel

L'exemple suivant montre quelques modèles dans les parcelles résiduelles.

Parcelles résiduelles

Dans le premier cas, les points sont dispersés de manière aléatoire. Le modèle de régression linéaire est donc préférable. Dans les deuxième et troisième cas, les points sont dispersés de manière non aléatoire et suggèrent qu'une méthode de régression non linéaire est préférée.

Exemple

Énoncé du problème:

Vérifiez où un modèle de régression linéaire est approprié pour les données suivantes.

$ x $ 60 70 80 85 95
$ y $ (valeur réelle) 70 65 70 95 85
$ \ hat y $ (valeur prédite) 65,411 71.849 78,288 81,507 87,945

Solution:

Étape 1: Calculez les résidus pour chaque point de données.

$ x $ 60 70 80 85 95
$ y $ (valeur réelle) 70 65 70 95 85
$ \ hat y $ (valeur prédite) 65,411 71.849 78,288 81,507 87,945
$ e $ (résiduel) 4.589 -6,849 -8,288 13.493 -2,945

Étape 2: - Dessinez le graphique de tracé résiduel.

Terrain résiduel

Étape 3: - Vérifiez le caractère aléatoire des résidus.

Ici, le tracé résiduel présente un schéma aléatoire - le premier résiduel est positif, les deux suivants sont négatifs, le quatrième est positif et le dernier résiduel est négatif. Le motif étant assez aléatoire, ce qui indique qu'un modèle de régression linéaire est approprié pour les données ci-dessus.