La régression multiple
Cours : La régression multiple. Recherche parmi 300 000+ dissertationsPar Krimi1870 • 4 Mai 2018 • Cours • 550 Mots (3 Pages) • 514 Vues
Partie I : Le modèle et les conditions de la régression multiple :
1. Le modèle de la régression linéaire multiple.
La régression multiple est une extension de la régression simple. Elle sert à analyser la relation entre une variable dépendante quantitative et plusieurs variables indépendantes quantitatives ou binaires.
De manière générale, les modèles statistiques se présentent globalement comme suit :
Observation : (Modèle i) + erreur i
Le modèle générale est une généralisation du modèle simple dans lequel figurent plusieurs variables explicatives :
Yi : (B0 + B1X1 + B2X2 + … + BnXn) + εi i=1………n
Yi : représente les valeurs possibles de la variable dépendante qui peuvent être expliquées par le modèle général de régression; (variable à expliquer ).
X1 : Variable explicative.
Xn : Variable explicative n
Avec B1, B2………Bn paramètres du modèle.
B0 : (la constante) correspond à la valeur de la variable dépendante lorsque toutes les variables indépendantes égalent 0.
2. Condition d’application de la régression (validation du modèle)
• La linéarité du phénomène mesuré.
• l’homoscédasticité ou égalité des variances du terme d’erreur (variance est constant), pour vérifier cet hypothèse on peut utiliser : Test d’homogénéité de Lvene
• L’indépendance des termes d’erreur : Test de Durbin-Watson : Ce test varie entre 0 et 4, une valeur proche de 2 confirme l’indépendance des termes d’erreur.
• La normalité de la distribution du terme d’erreur : Examen de résidus
• La non-colinéarité entres les variables explicatives :
o Facteur d’inflation de la variance (VIF), le VIF doit être inférieur à 3
o La tolérance : la tolérance doit être supérieure à 0,33
Interprétation des résultats de la régression :
Le coefficient standardisé Beta : permet de comparer la contribution de chaque variable, c’est un coefficient de régression ramené sur une échelle standard (entre -1 et 1).
Le test F : représente la significativité de la relation entre la variable dépendante et les variables indépendante (vérifié que cette relation n’est pas due au hasard de l’échantillonnage : (signification globale).
Le test t : sa valeur doit être supérieur à 1,96 pour être significative (p<0,05), elle indique si chacun des coefficients des variables présentes dans l’équation est significatif.
R : Le coefficient de la corrélation multiple [-1,1], il indique la force de la relation entre l’ensemble des variables indépendantes et la variable dépendante. Plus la corrélation est élevée plus la relation linéaire entre les variables indépendantes et les variables dépendent est élevée.
R2
...