Statistique, la régression linéaire multiple.
Cours : Statistique, la régression linéaire multiple.. Recherche parmi 301 000+ dissertationsPar Rahmane_kahina • 10 Novembre 2016 • Cours • 1 532 Mots (7 Pages) • 951 Vues
LA RÉGRESSION LINÉAIRE MULTIPLE
Dans le modèle de régression linéaire simple, l’analyste n’utilise qu’une seule variable (X) pour expliquer les variations sur la variable dépendante (Y). En utilisant ainsi un modèle de régression linéaire simple, on peut avoir omis d’autres variables explicatives pertinentes, soit intentionnellement pour une simplification de l’analyse, soit que ces variables n’étaient pas mesurables avec une précision acceptable, soit que le coût encouru pour l’acquisition de cette information additionnelle était prohibitif ou encore simplement à cause d’un manque de planification expérimentale.
Dans le cas de la régression multiple, notre intérêt va consister, entre autres, à accroître la précision de notre estimation de la valeur moyenne de Y en introduisant dans notre analyse plusieurs variables explicatives.
La régression multiple est un outil de la statistique qui a pour but d’expliquer la variabilité existante dans une variable aléatoire (Y) lorsque le comportement de cette variable est conditionné par les valeurs certaines que peuvent prendre d’autres variables, contrôlées ou non par l’expérimentateur.
On peut difficilement dénombrer tous les domaines d’application où l’on peut faire usage de la régression multiple. Des applications très variées relevant, entre autres, de la technologie, de l’ingénierie, de la finance, de la gestion, de l’économétrie, du marketing, de la psychologie, de l’éducation physique, du domaine médical, de la biologie, de l’agriculture..., ont fait le sujet de nombreuses publications.
Forme générale du modèle de régression linéaire multiple
Note : Le mot multiple est introduit ici à cause de la présence de plusieurs variables explicatives dans le modèle, contrairement à une seule variable explicative dans le modèle linéaire simple.
Note : Le terme linéaire s’applique, par contre, aux paramètres du modèle et non aux variables explicatives.
Notation :
Y = variable dépendante ou expliquée à caractère aléatoire;
X1, X2,... Xp= variables indépendantes ou explicatives mesurées sans erreur ou fixées à des niveaux arbitraires (non aléatoire);
= sont les paramètres du modèle (nous les estimons à l’aide d’un échantillon et la méthode d’estimation sera de nouveau la méthode des moindres carrés);
Sens des paramètres du modèle
= représente la moyenne des Yi lorsque la valeur de chaque variable explicative est égale à 0.
= représente le changement subi par E(Yi) correspondant à un changement unitaire dans la valeur de la j-ième variable explicative, lorsque les autres variables explicatives demeurent inchangées.
Estimation du modèle de régression linéaire multiple
Le modèle linéaire empirique a la forme suivante :
bo, b1 ... bp = les coefficients de régression empiriques (estimations de respectivement)
représente l’erreur empirique pour 1 ≤ i ≤ n
Il s’agit maintenant de trouver bo, b1, ... bp de sorte que la somme des erreurs au carré soit la plus petite possible (minimale).
Calcul des coefficients bo, b1,...,bp
Les estimations des paramètres du plan de régression obtenues par la méthode des moindres carrés sont obtenues à l’aide du logiciel SPSS (il existe une méthode de calcul des paramètres à l’aide d’un système d’équations matricielles mais la connaissance de cette méthode dépasse le niveau du cours, nous utiliserons donc SPSS).
Exemple :
Suite de l’exemple (Restaurant Cocorico).
Pour pousser plus loin votre analyse, vous examiner aussi le modèle avec les quatre variables explicatives : . À partir des résultats obtenus à l’aide de SPSS, répondez aux questions suivantes :
d) Donnez l’équation de l’hyperplan ajusté par la méthode des moindres carrés.
Solution:
Solution :
[pic 1]
[pic 2]
[pic 3]
[pic 4]
[pic 5]
Validation du modèle de régression linéaire multiple
Dans le cas d’un modèle de régression linéaire multiple, l’estimation de la variance des erreurs théoriques ou variance théorique est inconnue en pratique. Nous utiliserons donc la variance des erreurs empiriques ei notée comme estimateur de cette valeur inconnue.
La variance résiduelle est un estimateur non biaisé pour.
Remarque : La précision des estimateurs bo, b1...,bp dépend de ; plus est petite plus précis seront les estimateurs.
Tout comme dans le cas du modèle de régression linéaire simple on a :
.
De là, on obtient la statistique suivante :
Remarque : Puisque les sont inconnues, nous devons les estimer à l’aide des estimateurs notés .
On obtiendra donc les statistiques suivantes :
Estimation de par intervalle de confiance
...