Démarche de la conduite de l’analyse factorielle exploratoire
Cours : Démarche de la conduite de l’analyse factorielle exploratoire. Recherche parmi 300 000+ dissertationsPar Ayoub Ait El Mahjoub • 3 Juin 2016 • Cours • 4 848 Mots (20 Pages) • 1 695 Vues
Démarche de la conduite de l’analyse factorielle exploratoire
L’analyse factorielle est l’une des plus anciennes méthodes d’analyses multivariée et elle a fait l’objet du plus grand nombre d’applications en sciences sociales (Evrard, Pras et Roux, 2009[1]). Elle correspond à une démarche statistique de structuration des données. Elle fournit une méthodologie qui sert au développement d’échelles et à la réduction du nombre des items tout en fiabilisant les données collectées. Il s’agit d’une démarche psychométrique de mesure de concepts non observables (Hair et al, 2008[2]). L’analyse factorielle peut être exploratoire ou confirmatoire
Conditions de réalisation d’une ACP
L’appréciation de la qualité des mesures requiert une démarche en deux temps, d’abord exploratoire par le biais d’une ACP, sans spécification a priori des liens entre les variables latentes et leurs indicateurs, puis confirmatoire afin de tester une structure prédéterminée.
Jolibert et Jourdan (2006[3]) mettent en avant trois principaux objectifs assignés à l’analyse factorielle exploratoire en composantes principales (1) Identifier un ensemble de dimension latente à partir d’un ensemble plus grand de variables initiales. Il s’agit de découvrir une structure sous-jacente. (2) Réduire le nombre de variables en un ensemble plus restreint. (3) Mettre au point un indice caractérisant un groupe. Pour conduire une analyse factorielle exploratoire, le recours à une série d’analyse semble nécessaire : l’étude de l’adéquation des données à l’analyse factorielle, le choix des méthodes d’analyse et d’extraction, le choix du nombre de facteurs à extraire, le choix de la rotation à appliquer aux facteurs et l’épuration et interprétation des facteurs.
Matrice de covariance ou de corrélation
Les variables à retenir pour une analyse factorielle doivent avoir été mesurées sur des échelles d’intervalle ou de rapport. Il est souhaitable d’avoir 3 à 5 fois plus de variables que de facteurs (Jolibert et Jourdan, 2006[4]). Si les variables ont été mesurées sur des échelles comparables (par exemple, notations sur des échelles qui comprennent le même nombre d’échelons), les différences de variance d’une variable à l’autre peuvent être considérées comme « normales ». Dans ce cas, on peut utiliser la matrice de covariance ou la matrice de corrélation (Evrard et al, 2000). En revanche, si les variables sont mesurées suivant des formats de réponse très différents c’est-à-dire le nombre d’échelons ne sont pas identique, il est recommandé de les standardiser, c’est-à-dire de les centrer et de les réduire pour neutraliser l’effet de la différence. L’indice de proximité entre les variables sera alors le coefficient de corrélation, la variance de chaque variable est alors égale à l’unité. Dans ce cas, on utilisera la matrice des corrélations uniquement (Evrard et al, 2009). Il s’agit de vérifier que les items forment "un ensemble suffisamment cohérent pour qu’il soit raisonnable d’y chercher des dimensions communes qui aient un sens et ne soient pas des artefacts statistiques" (Evrard et al, 2009). Avec une matrice de corrélation, la variance des variables à faible écart type a autant d’importance que la variance des variables à fort écart-type.
Le test de Kaiser-Meyer-Olkin (KMO)
Pour examiner la nature « factorisable » des données, deux tests formels sont disponibles : le test de sphéricité de Bartlett qui fournit des indications sur la forme du nuage de points ; le test de Kaiser, Meyer et Olkin (KMO) qui mesure l’adéquation de l’échantillon avec l’ensemble des variables (Evrard et al., 2009). Le test KMO varie entre 0 et 1. Il permet de « quantifier le degré de corrélations entre les items. La valeur 1 indique que chaque variable est expliquée sans erreur par les autres variables » (Hair et al., 2008[5]). S’il est proche de 0, les corrélations partielles sont identiques aux corrélations brutes. Dans ce cas, une compression efficace n’est pas possible. Les variables sont deux à deux orthogonales. S’il est proche de 1, nous aurons un excellent résumé de l’information sur les premiers axes factoriels. Selon Jolibert Jourdan (2006), si le KMO est supérieur 0,9 la solution factorielle est très bonne, et la solution factorielle est acceptable pour les relations entre les variables. Le KMO égal à 0,7 et 0,8 est correct. Un KMO inférieur à 0,6 n’est pas acceptable.
La formule de KMO s’énonce comme suit :
'[pic 1] | et | [pic 2] |
(aij) correspond à la matrice de corrélations partielles[6]. Les (aij) sont calculés de la matrice de corrélation brute. En inversant cette dernière, nous obtenons la matrice R-1 = (vij). La matrice de corrélation partielle A = (aij) est formée à l’aide de la formule présentée en haut. Vii sont les valeurs de la diagonale de la matrice anti-image.
R2ij sont les valeurs des corrélations brutes des items i et j.
Le test de sphéricité
Le test de sphéricité de Bartlett examine si la matrice des corrélations est statistiquement différente d’une matrice identité. Selon Malhotra (2004), une grande valeur du test permet de rejeter cette hypothèse nulle et autorise la factorisation. Pour mesurer le lien entre les variables, nous calculons le déterminant |R| de la matrice de corrélation. Sous H0, |R| = 1 ; s’il y a des colinéarités parfaites, nous aurions |R| = 0. Fixer des valeurs seuils est difficile. Généralement, lorsque |R| est inférieur à 0.00001, on considère qu’il y a de très fortes redondances dans les données c.-à-d. elles ne recèlent qu’un seul type d’information. Le résultat sera d’une très grande trivialité. A l’inverse, lorsque |R| se rapproche de 1, l’ACP ne servira pas à grand-chose car les variables sont quasiment orthogonales deux à deux. Le test de Bartlett vise justement à vérifier si l’on s’écarte significativement de cette situation de référence |R| = 1. La statistique de test s’écrit :
[pic 3]
Avec n taille de l’échantillon et p le nombre d’items ou de variables.
Sous H0, elle suit une loi du χ² à [p x (p-1) / 2] degrés de liberté.
Stewart (1981) nuance la portée de ce test car, selon lui, il conduit presque systématiquement à un rejet de H0, même dans des conditions douteuses d’associations entre les variables
Qualité de représentation des items
La qualité de la représentation des items correspond à la mesure du pourcentage de la variance expliquée par chacune des variables de l’analyse. Il s’agit de vérifier si les items d’une variable contribuent bien à l’explication de la variance. Autrement dit, l’analyse de la qualité de la représentation permet de définir si les items sont bien représentés par la ou les dimensions du construit. Cette qualité est mesurée par un indice appelé communauté, communalities ou Loading. Les items dont la communauté est inférieure à 0.5 seraient candidats à l’élimination en adoptant une démarche itérative d’épuration en commençant par les items dont la communauté est la plus faible. Par ailleurs, nous soulignons que Haïr et al (1998)[7] précisent que le choix de ce seuil est fonction de la taille de l’échantillon et du seuil de signification souhaité.
...