Cours décision D'investissement Et De Financement: la régression logistique
Dissertation : Cours décision D'investissement Et De Financement: la régression logistique. Recherche parmi 300 000+ dissertationsPar ahlam95 • 21 Mai 2015 • 3 682 Mots (15 Pages) • 1 151 Vues
Théorique : LA REGRESSION LIGISTIQUE (Extrait)
La régression logistique propose de tester un modèle de régression dont la variable dépendante est dichotomique (codée 0-1) et dont les variables indépendantes peuvent être continues ou catégorielles. La régression logistique binomiale s’apparente beaucoup à la régression linéaire. Le poids de chaque variable indépendante est représenté par un coefficient de régression et il est possible de calculer la taille d’effet du modèle avec un indice semblable au coefficient de détermination (pseudo R2). Toutefois, elle ne nécessite pas la présence d’une relation linéaire entre les variables puisque la variable dépendante est dichotomique.
Un modèle de régression logistique permet aussi de prédire la probabilité qu’un événement arrive (valeur de 1) ou non (valeur de 0) à partir de l’optimisation des coefficients de régression. Ce résultat varie toujours entre 0 et 1. Lorsque la valeur prédite est supérieure à 0,5, l’événement est susceptible de se produire, alors que lorsque cette valeur est inférieure à 0,5, il ne l’est pas.
Exemples de questions de recherche auxquelles peut répondre la régression logistique :
Est-ce que le nombre d’heures d’études, le niveau d’anxiété et le sexe permettent de prédire la réussite ou l’échec à un examen ?
Quelle est la probabilité de dépasser son poids santé en adoptant de mauvaises habitudes de vie ?
Généralement, les modèles de régression logistique comprennent plus d’une variable indépendante. Il s’agit donc d’une technique d’analyse multivariée.
Hypothèse nulle
L’hypothèse nulle générale est que la combinaison des variables indépendantes (le modèle) ne parvient pas à mieux expliquer la présence/absence de la variable dépendante qu’un modèle sans prédicteur. Comme c’était le cas pour la régression multiple, la confirmation de cette hypothèse nulle marque la fin de l’interprétation du modèle.
Lorsque cette hypothèse nulle est rejetée, ceci signifie qu’il y a au moins un prédicteur du modèle qui est associé significativement à la variable dépendante. Il faut alors interpréter les valeurs des coefficients du modèle (b1, b2, b3…bn) et déterminer lequel ou lesquels sont significatifs.
Les prémisses
1. Les types de variables à utiliser :
Indépendantes (prédicteurs) : continue ou catégorielles dichotomiques
Dépendante (prédite) : catégorielle dichotomique. Cette dernière doit être une vraie variable dichotomique et non une variable continue recodée en 2 groupes, ce qui serait associé à une importante perte d’information.
2. Inclure les variables pertinentes : toutes les variables pertinentes doivent être comprises dans le modèle et celles qui ne le sont pas, éliminées.
3. Indépendance des observations (VD) et des résiduels : un individu ne peut pas faire partie des deux groupes de la VD (par exemple avec des mesures pré-post-test).
4. Relation linéaire entre les VI et la transformation logistique de la VD
5. Aucune multicolinéarité parfaite ou élevée : il ne doit pas y avoir de relation linéaire parfaite, ni très élevée entre deux ou plusieurs prédicteurs. Par conséquent, les corrélations ne doivent pas être trop fortes entre ceux-ci.
6. Pas de valeurs extrêmes des résiduels : comme dans la régression multiple, des valeurs résidulelles standardisées plus élevées que 2,58 ou moins élevées que -2,58 influencent les coefficients du modèle et limitent la qualité de l’ajustement.
7. Taille de l’échantillon : l’échantillon doit être suffisant pour que l’on puisse procéder à l’analyse. On suggère minimalement 10 observations par variable indépendante (Hosmer et Lemeshow, 1989, voir également Cohen, 1992).
8. Échantillon adéquat pour les prédicteurs catégoriels : lorsqu’une VI catégorielle est croisée avec la VD, aucune cellule ne doit avoir moins d’une observation et un maximum de 20 % des cellules peuvent comprendre 5 observations ou moins.
Le modèle : parallèle entre la régression multiple et logistique
Nous avons vu que l’équation de la régression multiple est la suivante :
Yi : (b0 + b1X1 + b2X2 + … + bnXn) + εi
Pour la régression logistique, c’est la même chose, mais en ajoutant la transformation logarithmique. Par exemple, l’équation pour 1 prédicteur est la suivante :
où :
P(Y) est la probabilité que Y arrive
e est la base des logarithmes naturels
Les coefficients b0 et b1 représentent la combinaison linéaire du prédicteur et de la constante.
La régression à plusieurs prédicteurs est donc formulée ainsi :
Il faut toutefois se rappeler que même si la formule se ressemble, on ne peut pas appliquer une régression multiple quand la VD est dichotomique, parce qu’on ne respecte pas la prémisse de relation linéaire. La transformation logarithmique permet à l’équation de prendre une forme linéaire.
Le résultat obtenu à une régression logistique se situera toujours entre 0 et 1. Si la valeur est près de 0, la probabilité est faible que l’événement arrive, alors que si la valeur est près de 1, la probabilité est élevée.
La probabilité maximale
La droite de moindres carrés de la régression linéaire est construite à partir des coefficients qui minimisent la distance au carré entre les points
...