ACP AFC
Étude de cas : ACP AFC. Recherche parmi 300 000+ dissertationsPar Imane Asli • 16 Mai 2016 • Étude de cas • 1 662 Mots (7 Pages) • 2 043 Vues
L’Analyse Des Données
- L’Analyse en Composantes Principales
Définition
- Qu’est ce que l’ACP ?
C’est l’ensemble de techniques multi variées qui ont pour but principal de réduire et de résumer les données.
C’est une technique d’interdépendance dans laquelle toute les variables sont considérées simultanément.
- Quels sont les objectifs de l’ACP ?
- Repérer des groupes d’individus, homogènes vis-à-vis de l’ensemble des caractères.
- Révéler des différences entre individus ou groupes d’individu, relativement à l’ensemble des caractères.
- Réduire l’information qui permet de décrire la position d’un individu dans l’ensemble de la population
- Que permet l’ACP ?
Elle permet une analyse des diverses variables statistiques définies sur les caractères étudiés.
Elle permet de construire des variables artificielles (car non mesurés mais calculés à partir des données) qui expliquent l’ensemble des variables statistiques prises en compte dans l’ACP
- Qu’est ce qu’on obtient ?
On obtient ainsi un ensemble de nouvelles variables, en plus petits nombre que les variables initiales. Chacune de ces variables initiales est liée à l’ensemble des variables artificielles retenus.
Nature des données : variables quantitatives
- Qu’est ce que la matrice de corrélation ?
C’est une matrice R dont les éléments sont les corrélations des variables prises 2 à 2
R= (rij=cor (Xi, Xj))
- Interprétation de la matrice de corrélation
Plus les variables présentent de fortes corrélation plus elles peuvent être regroupés en dimensions homogènes. Sinon elles sont hétérogènes.
- Quel est le problème qui se pose quand les variables sont hétérogènes ?
Grand nombre de variables et visualisations
- Qu’est ce que le KMO ?
Kaiser – Meyer – Olkin est un réel compris entre 0 et 1.
Un KMO assez élevé (> 0,6) est indispensable pour obtenir une ACP intéressante.
- En quoi consiste le test de sphéricité de Bartlett ?
On test l’hypothèse H0 : indépendance entres les variables contre H1 : association entre les variables.
Ce test doit être significatif (p< 0,10 ; p< 0,05 ; p< 0,01 ; p< 0,001) pour exprimer le fait que les variables sont corrélées entre elles.
- Qu’est ce qu’on entend par la distance entre individu ?
C’est la longueur du segment joignant les deux points de l’espace qui représente les individus
- Qu’est ce que l’inertie ?
Elle correspond à la somme des variances des variables initiales, centrées réduites
Elle permet de mesurer la dispersion du nuage autour de son centre de gravité
- Comment passer d’un espace de dimension supérieur ou égale à 3 à un espace de dimension plus restreinte ?
Il s’agit de trouver un sous espace f tel que la distance entre point – individus soit conservés dans le processus de projection sur ce sous espace.
- Quel est le principe de l’ACP ?
C’est la réduction de l’espace de représentation des individus par la définition de nouvelles variables « synthétiques » pour lesquelles la variance (inertie) est maximale : les composantes principales.
- Composantes principales ?
1ère composante = celle pour laquelle la variance des individus est maximale
2ème composante = est cherchée sous deux conditions :
- Avoir une corrélation nulle avec la première composante
- Exprimer à son tour la plus grande variance des individus
Le processus se déroule jusqu’à l’obtention des p composantes
- Recherche du 1er axe principal et de la première composante principale :
1er axe principal ∆1 | 1ère composante principale Y1 | Qualité globale d’Y1 | Qualité de représentation des individus sur ∆1 |
La droite ∆1 passe par l’origine O et est engendré par le vecteur u1 vecteur propre normé de la matrice de corrélation R associé à la plus grande valeur propre … Cette droite maximise l’inertie des points du nuage projeté sur ∆1 qui vaut … | Y1 est une nouvelle variable définie pour chaque individu par la longueur algébrique de la projection de l’individu sur ∆1. C’est une variable centrée de variance … | La corrélation entre la 1ère composante et les variables initiales permet de donner un sens à la composante Part d’inertie expliquée= mesure de la qualité globale de Y1 | Elle est mesurée par le cos² de l’angle formé par l’individu et ∆1. Plus le cos est proche de 1 plus le point est proche de ∆1. |
- Recherche du 2ème axe principal et de la 2ème composante principale :
2ème axe principal ∆2 | la 2ème composante principale Y2 | Qualité globale d’Y2 | Qualité de représentation des individus sur ∆2 |
La droite ∆2 passe par l’origine O et est engendré par le vecteur u2 vecteur propre normé de la matrice de corrélation R associé à la plus grande valeur propre … Cette droite maximise l’inertie des points du nuage projeté sur ∆2 qui vaut … | Y2 est une nouvelle variable définie pour chaque individu par la longueur algébrique de la projection de l’individu sur ∆2. C’est une variable centrée de variance … | La corrélation entre la 2ème composante et les variables initiales permet de donner un sens à la composante Part d’inertie expliquée= mesure de la qualité globale de Y2 | Elle est mesurée par le cos² de l’angle formé par l’individu et ∆2. Plus le cos est proche de 1 plus le point est proche de ∆2. |
...