Statistiques - Régression linéaire

Une fois que le degré de relation entre les variables a été établi à l'aide d'une analyse de corrélation, il est naturel de se plonger dans la nature de la relation. L'analyse de régression aide à déterminer la relation de cause à effet entre les variables. Il est possible de prédire la valeur d'autres variables (appelées variables dépendantes) si les valeurs de variables indépendantes peuvent être prédites en utilisant une méthode graphique ou la méthode algébrique.

Méthode graphique

Il s'agit de dessiner un diagramme de dispersion avec une variable indépendante sur l'axe X et une variable dépendante sur l'axe Y. Après cela, une ligne est tracée de telle manière qu'elle traverse la majeure partie de la distribution, les points restants étant répartis presque également de chaque côté de la ligne.

Une ligne de régression est connue comme la ligne de meilleur ajustement qui résume le mouvement général des données. Il montre les meilleures valeurs moyennes d'une variable correspondant aux valeurs moyennes de l'autre. La ligne de régression est basée sur les critères selon lesquels il s'agit d'une ligne droite qui minimise la somme des écarts au carré entre les valeurs prédites et observées de la variable dépendante.

Méthode algébrique

La méthode algébrique développe deux équations de régression de X sur Y et Y sur X.

Équation de régression de Y sur X

$ {Y = a + bX} $

Où -

  • $ {Y} $ = Variable dépendante

  • $ {X} $ = Variable indépendante

  • $ {a} $ = Constante montrant l'ordonnée à l'origine

  • $ {b} $ = Constante montrant la pente de la ligne

Les valeurs de a et b sont obtenues par les équations normales suivantes:

$ {\ sum Y = Na + b \ sum X \\ [7pt] \ sum XY = a \ sum X + b \ sum X ^ 2} $

Où -

  • $ {N} $ = Nombre d'observations

Équation de régression de X sur Y

$ {X = a + bY} $

Où -

  • $ {X} $ = Variable dépendante

  • $ {Y} $ = Variable indépendante

  • $ {a} $ = Constante montrant l'ordonnée à l'origine

  • $ {b} $ = Constante montrant la pente de la ligne

Les valeurs de a et b sont obtenues par les équations normales suivantes:

$ {\ sum X = Na + b \ sum Y \\ [7pt] \ sum XY = a \ sum Y + b \ sum Y ^ 2} $

Où -

  • $ {N} $ = Nombre d'observations

Exemple

Énoncé du problème:

Un chercheur a découvert qu'il existe une corrélation entre les tendances pondérales du père et du fils. Il est maintenant intéressé à développer une équation de régression sur deux variables à partir des données données:

Poids du père (en Kg) 69 63 66 64 67 64 70 66 68 67 65 71
Poids du fils (en Kg) 70 65 68 65 69 66 68 65 71 67 64 72

Développer

  1. Équation de régression de Y sur X.

  2. Équation de régression de sur Y.

Solution:

$ {X} $ $ {X ^ 2} $ $ {Y} $ $ {Y ^ 2} $ $ {XY} $
69 4761 70 4900 4830
63 3969 65 4225 4095
66 4356 68 4624 4488
64 4096 65 4225 4160
67 4489 69 4761 4623
64 4096 66 4356 4224
70 4900 68 4624 4760
66 4356 65 4225 4290
68 4624 71 5041 4828
67 4489 67 4489 4489
65 4225 64 4096 4160
71 5041 72 5184 5112
$ {\ sum X = 800} $ $ {\ sum X ^ 2 = 53 402} $ $ {\ sum Y = 810} $ $ {\ sum Y ^ 2 = 54 750} $ $ {\ sum XY = 54 059} $

Équation de régression de Y sur X

Y = a + bX

Où, a et b sont obtenus par des équations normales

$ {\ sum Y = Na + b \ sum X \\ [7pt] \ sum XY = a \ sum X + b \ sum X ^ 2 \\ [7pt] Où \ \ sum Y = 810, \ sum X = 800 , \ sum X ^ 2 = 53 402 \\ [7pt], \ sum XY = 54, 049, N = 12} $

$ {\ Rightarrow} $ 810 = 12a + 800b ... (i)

$ {\ Rightarrow} $ 54049 = 800a + 53402 b ... (ii)

En multipliant l'équation (i) avec 800 et l'équation (ii) avec 12, nous obtenons:

96000 a + 640000 b = 648000 ... (iii)

96000 a + 640824 b = 648588 ... (iv)

Soustraire l'équation (iv) de (iii)

-824 b = -588

$ {\ Rightarrow} $ b = -.0713

La substitution de la valeur de b dans l'équation. (je)

810 = 12a + 800 (-0,713)

810 = 12a + 570,4

12a = 239,6

$ {\ Rightarrow} $ a = 19,96

Par conséquent, l'équation Y sur X peut être écrite comme

$ {Y = 19,96 - 0,713X} $

Équation de régression de Y sur X

X = a + bY

Où, a et b sont obtenus par des équations normales

$ {\ sum X = Na + b \ sum Y \\ [7pt] \ sum XY = a \ sum Y + b \ sum Y ^ 2 \\ [7pt] Où \ \ sum Y = 810, \ sum Y ^ 2 = 54 750 \\ [7pt], \ sum XY = 54, 049, N = 12} $

$ {\ Rightarrow} 800 $ = 12a + 810a + 810b ... (V)

$ {\ Rightarrow} $ 54 049 = 810a + 54, 750 ... (vi)

En multipliant eq (v) par 810 et eq (vi) par 12, on obtient

9720 a + 656100 b = 648000 ... (vii)

9720 a + 65700 b = 648588 ... (viii)

Soustraire l'eq viii de l'eq vii

900b = -588

$ {\ Rightarrow} $ b = 0,653

Substitution de la valeur de b dans l'équation (v)

800 = 12a + 810 (0,653)

12a = 271,07

$ {\ Rightarrow} $ a = 22,58

Par conséquent, l'équation de régression de X et Y est

$ {X = 22,58 + 0,653Y} $