Régression linéaire simple
Guide pratique : Régression linéaire simple. Recherche parmi 300 000+ dissertationsPar dzezed • 20 Novembre 2022 • Guide pratique • 3 290 Mots (14 Pages) • 276 Vues
Régression linéaire simple Régression linéaire simple [pic 1][pic 2][pic 3]
Résumé
Ce chapitre introduit la notion de modèle linéaire par la version la
plus élémentaire : expliquer Y par une fonction affine de X. Après
avoir expliciter les hypothèses nécessaires et les termes du modèle,
les notions d’estimation des paramètres du modèle, de prévision par
intervalle de confiance, la signification des tests d’hypothèse sont discutées. Enfin une attention particulière est faite aux outils de diagnostics disponibles : valeurs influentes, et surtout graphe des résidus.
Retour au plan du cours.
1 Introduction
Ce chapitre est une introduction à la modélisation linéaire par le modèle le plus élémentaire, la régression linéaire simple où une variable X est ex pliquée, modélisée par une fonction affine d’une autre variable y. La finalité d’un tel modèle est multiple et dépend donc du contexte et surtout des ques tions sous-jacentes. Ce peut-être juste une approche exploratoire ou alors la recherche d’une réponse à une question du type : une variable quantitative X (e.g. la concentration d’une molécule) a-t-elle une influence sur la variable quantitative Y (e.g. une culture bactérienne) ? Ou enfin la recherche d’un mo dèle de prévision de Y en fonction de X : calibration d’un appareil de mesure d’une concentration à partir d’une mesure optique. Des concepts clefs : mo dèle, estimations, tests, diagnostics sont introduits et déclinés dans ce contexte élémentaire. Leur emploi et leur signification dépendent des objectifs. Ils se re trouvent dans une présentation plus général du modèle de régression multiple et ce chapitre sert donc d’introduction.
Avant tout travail de modélisation, une approche descriptive ou exploratoire est nécessaire pour dépister au plus tôt des difficultés dans les données : dis symétrie des distributions, valeurs atypiques, liaison non linéaire entre les va riables. En fonction des résultats obtenus, une transformation préalable des va riables peut s’avérer nécessaire. Dans l’exemple de la figure 1, le choix d’une
FIGURE 1 – Exemple de régression du poids d’un arbre en fonction de la variable diamètre × hauteur et diamètre × hauteur au carré
variable explicative homogène à un volume semble plus judicieux pour estimer le poids d’un arbre.
2 Modèle
On note Y la variable aléatoire réelle à expliquer (variable endogène, dé pendante ou réponse) et X la variable explicative ou effet fixe (exogène). Le modèle revient à supposer, qu’en moyenne, E(Y ), est une fonction affine de X. L’écriture du modèle suppose implicitement une notion préalable de cau salité dans le sens où Y dépend de X car le modèle n’est pas symétrique.
E(Y ) = f(X) = β0 + β1X ou Y = β0 + β1X + ε
Remarque : Nous supposerons pour simplifier que X est déterministe. Dans le cas contraire, X aléatoire, le modèle s’écrit alors conditionnellement aux observations de X : E(Y |X = x) = β0 + β1x et conduit aux mêmes estima tions.
Les hypothèses relatives à ce modèle sont les suivantes :
1. la distribution de l’erreur ε est indépendante de X ou X est fixe, 2. l’erreur est centrée et de variance constante (homoscédasticité) :
∀i = 1, . . . , n E(εi) = 0, Var(εi) = σ2.
3. β0 et β1 sont constants, pas de rupture du modèle.
1
Régression linéaire simple 4. Hypothèse complémentaire pour les inférences : ε ∼ N (0, σ2). [pic 4]
les résidus calculés ou estimés sont :
3 Estimation 3.1 Paramètres
ei = yi − ybi.
La variance σ2est estimée par la variation résiduelle :
L’estimation des paramètres β0, β1, σ2est obtenue en maximisant la vrai semblance, sous l’hypothèse que les erreurs sont gaussiennes, ou encore par minimisation de la somme des carrés des écarts entre observations et modèle
s2 =1 n − 2
Xn i=1
e2i.
(moindres carrés). Les deux approches conduisent aux mêmes estimation tan dis que le maximum de vraisemblance induit de meilleure propriétés des es timateurs. Pour une séquence d’observations {(xi, yi)i = 1 . . . , n}, le critère des moindres carrés s’écrit :
Xn
Exemple : Analyse de régression : Poids en fonction de D2xH
L’équation de régression est
Poids = 0,0200 + 0,00829 D2xH
Régresseur Coef Er-T coef T P Constante 0,01999(1) 0,01365(3) 1,46 0,160
(yi − β0 − β1xi)2.
On pose :
min β0,β1
i=1
D2xH 0,0082897(2) 0,0002390(4) 34,68 0,000
(1) b0
(2) b1
x¯ =1nXn i=1
xi, y¯ =1nXn i=1
yi,
(3) écart-type de βc0 : sb0
(4) écart-type de βc1 : sb1
3.2 Qualité d’ajustement
s2x =1
n − 1
sxy =1 n − 1
Xn
i=1 Xn
i=1
(xi − x¯)2, s2y =1 n − 1
(xi − x¯)(yi − y¯), r =sxy sxsy;
...