Test d’indépendance via le coefficient de corrélation
Résumé : Test d’indépendance via le coefficient de corrélation. Recherche parmi 300 000+ dissertationsPar alyssa41 • 28 Octobre 2019 • Résumé • 14 583 Mots (59 Pages) • 973 Vues
Test d’indépendance via le coefficient de corrélation [pic 1][pic 2][pic 3]
coefficient de corrélation de Pearson mesure l’intensité & le sens de la relation linéaire entre deux variables sur une échelle qui va de -1≤r≤1
- = -1 : parfaite relation négative[pic 4]
- = 0 : aucune relation linéaire [pic 5]
- = 1 : parfaite relation positive[pic 6]
- r > 0 variables ont tendance à prendre de grandes valeurs simul et de petites valeurs simultan.
- r < 0 variables ont tendance à varier en sens inverse, c-à-d que l’une est grande lorsque l’autre est petite.
Les hypothèses : : ρ = 🡪 Absence de relation linéaire; : ρ ≠ 🡪 Présence d’une relation linéaire[pic 11][pic 7][pic 8][pic 9][pic 10]
où ρ dénote la corrélation dans la population de référence.
Remarque : l’hypothèse alternative pourrait être remplacée par
: ρ Présence d’une relation linéaire négative[pic 12][pic 13][pic 14]
: ρ Présence d’une relation linéaire positive[pic 15][pic 16][pic 17]
Conditions de validité du test : Les variables à l’étude sont de distribution normale dans la population étudiée ou n ≥ 30
Plus la valeur du coefficient de corrélation estimée à partir de l’échantillon est grande (positive ou négative), plus on a tendance à rejeter l’hypothèse nulle. Intuitivement, on doit rejeter quand prend une valeur trop extrême.[pic 18][pic 19][pic 20]
Décision : Seuil expérimental [pic 21] | [pic 22] | On rejette [pic 23] |
Relation significative relation forte[pic 24]
Relation significative, mais faible Ex : le budget de publicité est un des facteurs liés aux ventes. Un budget de publicité plus élevé est généralement associé à de plus grandes ventes. | [pic 25] Seuil expérimental [pic 26] [pic 27] | Relation significative et forte Ex : le budget est un facteur important pour expliquer le niveau des ventes. Si on me donne le budget de publicité, je peux avoir une bonne idée des ventes. | [pic 28] Seuil expérimental [pic 29] [pic 30] |
Test d’indépendance pour deux variables qualitatives : le test du khi-deux
Si les événements A et B sont indépendants, alors il suffit d’en multiplier les probabilités pour obtenir la probabilité qu’ils se réalisent simultanément: Effectifs espérés (sous l’hypothèse d’indépendance)[pic 31]
Aime magasiner? | Total | |||
Oui | Non | |||
Sexe | Fille | 20 | ? | 50 |
Garçon | ? | ? | 50 | |
Total | 40 | 60 | 100 |
Concrètement, effectif espéré = somme de la ligne x somme de la colonne / somme totale
En pratique, les choses sont souvent moins tranchées:
Tableau de contingence | Aime magasiner | Total | ||
Oui | Non | |||
Sexe | Fille | 30 | 20 | 50 |
Garçon | 10 | 40 | 50 | |
Total | 40 | 60 | 100 |
Le test d’indépendance du khi-deux nous permet de répondre à la question.
Les hypothèses confrontées lors d’un test d’indépendance :
: les variables et sont indépendantes[pic 32][pic 33][pic 34]
: les variables et sont dépendantes[pic 35][pic 36][pic 37]
Pour tester l’indépendance entre deux variables qualitatives, il suffit de tester la distance entre les effectifs observés et les effectifs espérés sous (ceux qui seraient obtenus si les deux variables étaient indépendantes). [pic 38]
La statistique du test mesure cette distance (somme des différences au carré divisé par l’effectif espéré) pour l’ensemble des cellules :
= (somme sur toutes les cellules)[pic 39][pic 40]
Intuitivement, on doit rejeter quand prend une valeur trop grande. [pic 41][pic 42]
On rejette l’hypothèse d’indépendance ( entre les deux variables si le seuil expérimental ≤ α.[pic 43]
Conditions de validité du test : n ≥ 30 ET Tous les effectifs espérés sous H0 doivent être ≥ 5
Pour deux variables qualitatives, l’intensité de la relation peut être mesurée par :Le coefficient de Cramer
Il varie de 0 à 1. Une valeur de 0 signifie qu’il n’existe pas de relation entre les variables. Plus la valeur du coefficient de Cramer augmente, plus l’association entre les variables est forte.
[pic 44][pic 46][pic 47][pic 45]
Différence entre dépendance et causalité Ce type d’erreur est parfois nommé l’effet cigogne :
Les hypothèses de base de l’ANOVA à 1 facteur
H_0:μ_1=μ_2=⋯=μ_K ("aucun impact")
H_1: "au moins deux moyennes sont différentes" [pic 48]
ANOVA : Analysis of variance
Le principe : décomposer la variabilité observée dans les données entre différentes sources pouvant expliquer cette variabilité.
...