LaDissertation.com - Dissertations, fiches de lectures, exemples du BAC
Recherche

ACP AFC

Étude de cas : ACP AFC. Recherche parmi 300 000+ dissertations

Par   •  16 Mai 2016  •  Étude de cas  •  1 662 Mots (7 Pages)  •  2 043 Vues

Page 1 sur 7

L’Analyse Des Données

  1. L’Analyse en Composantes Principales

Définition

  1. Qu’est ce que l’ACP ?

C’est l’ensemble de techniques multi variées qui ont pour but principal de réduire et de résumer les données.

C’est une technique d’interdépendance dans laquelle toute les variables sont considérées simultanément.

  1. Quels sont les objectifs de l’ACP ?
  • Repérer des groupes d’individus, homogènes vis-à-vis de l’ensemble des caractères.
  • Révéler des différences entre individus ou groupes d’individu, relativement à l’ensemble des caractères.
  • Réduire l’information qui permet de décrire la position d’un individu dans l’ensemble de la population

  1. Que permet l’ACP ?

Elle permet une analyse des diverses variables statistiques définies sur les caractères étudiés.

Elle permet de construire des variables artificielles (car non mesurés mais calculés à partir des données) qui expliquent l’ensemble des variables statistiques prises en compte dans l’ACP

  1. Qu’est ce qu’on obtient ?

On obtient ainsi un ensemble de nouvelles variables, en plus petits nombre que les variables initiales. Chacune de ces variables initiales est liée à l’ensemble des variables artificielles retenus.

Nature des données : variables quantitatives

  1. Qu’est ce que la matrice de corrélation ?

C’est une matrice R dont les éléments sont les corrélations des variables prises 2 à 2

R= (rij=cor (Xi, Xj))

  1. Interprétation de la matrice de corrélation

Plus les variables présentent de fortes corrélation plus elles peuvent être regroupés en dimensions homogènes. Sinon elles sont hétérogènes.

  1. Quel est le problème qui se pose quand les variables sont hétérogènes ?

Grand nombre de variables et visualisations

  1. Qu’est ce que le KMO ?

Kaiser – Meyer – Olkin est un réel compris entre 0 et 1.

Un KMO assez élevé (> 0,6) est indispensable pour obtenir une ACP intéressante.

  1. En quoi consiste le test de sphéricité de Bartlett ?

On test l’hypothèse H0 : indépendance entres les variables contre H1 : association entre les variables.

Ce test doit être significatif (p< 0,10 ; p< 0,05 ; p< 0,01 ; p< 0,001) pour exprimer le fait que les variables sont corrélées entre elles.

  1. Qu’est ce qu’on entend par la distance entre individu ?

C’est la longueur du segment joignant les deux points de l’espace qui représente les individus

  1. Qu’est ce que l’inertie ?

Elle correspond à la somme des variances des variables initiales, centrées réduites

Elle permet de mesurer la dispersion du nuage autour de son centre de gravité

  1. Comment passer d’un espace de dimension supérieur ou égale à 3 à un espace de dimension plus restreinte ?

Il s’agit de trouver un sous espace f tel que la distance entre point – individus soit conservés dans le processus de projection sur ce sous espace.

  1. Quel est le principe de l’ACP ?

C’est la réduction de l’espace de représentation des individus par la définition de nouvelles variables « synthétiques » pour lesquelles la variance (inertie) est maximale : les composantes principales.

  1. Composantes principales ?

1ère composante = celle pour laquelle la variance des individus est maximale

2ème composante = est cherchée sous deux conditions :

  • Avoir une corrélation nulle avec la première composante
  • Exprimer à son tour la plus grande variance des individus

Le processus se déroule jusqu’à l’obtention des p composantes

  1. Recherche du 1er  axe principal et de la première composante principale :

1er  axe principal ∆1

1ère composante principale  Y1

Qualité globale d’Y1

Qualité de représentation des individus sur ∆1

La droite ∆1 passe par l’origine O et est engendré  par le vecteur u1 vecteur propre normé de la matrice de corrélation R associé à la plus grande valeur propre …

Cette droite maximise l’inertie des points du nuage projeté sur ∆1 qui vaut …

Y1 est une nouvelle variable définie pour chaque individu par la longueur algébrique de la projection de l’individu sur  ∆1.

C’est une variable centrée de variance …

La corrélation entre la 1ère composante et les variables initiales permet de donner un sens à la composante

Part d’inertie expliquée= mesure de la qualité globale de Y1

Elle est mesurée par le cos² de l’angle formé par l’individu et  ∆1.

Plus le cos est proche de 1 plus le point est proche de ∆1.

  1. Recherche du 2ème  axe principal et de la 2ème  composante principale :

2ème  axe principal ∆2

la 2ème  composante principale Y2

Qualité globale d’Y2

Qualité de représentation des individus sur ∆2

La droite ∆2 passe par l’origine O et est engendré  par le vecteur u2 vecteur propre normé de la matrice de corrélation R associé à la plus grande valeur propre …

Cette droite maximise l’inertie des points du nuage projeté sur ∆2 qui vaut …

Y2 est une nouvelle variable définie pour chaque individu par la longueur algébrique de la projection de l’individu sur  ∆2.

C’est une variable centrée de variance …

La corrélation entre la 2ème  composante et les variables initiales permet de donner un sens à la composante

Part d’inertie expliquée= mesure de la qualité globale de Y2

Elle est mesurée par le cos² de l’angle formé par l’individu et  ∆2.

Plus le cos est proche de 1 plus le point est proche de ∆2.

...

Télécharger au format  txt (10.6 Kb)   pdf (245.3 Kb)   docx (13.9 Kb)  
Voir 6 pages de plus »
Uniquement disponible sur LaDissertation.com