Projet de fin d'étude - Analyse de données
Étude de cas : Projet de fin d'étude - Analyse de données. Recherche parmi 300 000+ dissertationsPar 1997_moadlghy • 14 Mai 2019 • Étude de cas • 688 Mots (3 Pages) • 600 Vues
Ecole Supérieure de Technologie de Salé - Université Mohammed V
[pic 1][pic 2][pic 3]
Sujet 1 :
On installe les packages nécessaires avec la lecture du tableau :
[pic 4]
EXERCICE 1 :
Représenter les données après centrage et réduction par colonne :
f<-read.table("decathlon.txt")
dcr <- as.data.frame(scale(f))
bxr <- boxplot(dcr, main = "Les données centrer reduites", col = grey(0.8))
points(seq_len(ncol(f)), dcr[nrow(f), ], col = "red",
cex = 2)
legend("topright", legend = "Le dernier", pch = 1, col = "red",
pt.cex = 2, bty = "n")
[pic 5]
Pourquoi faut-il enlever le dernier individu et supprimer la dernière colonne ?
-On sélectionne le nombre d’axes à partir du graphe des valeurs propres :
library(ade4)
pca1 <- dudi.pca(f, scannf = FALSE)
barplot(pca1$eig)
[pic 6]
[pic 7][pic 8]
[pic 9]
[pic 10]
[pic 11]
[pic 12] [pic 13]
EXERCICE 2 :
XX=PCA(X[,1:10],scale.unit=TRUE, ncp=5, graph=T) #Génération de l'ACP X sans la colonne score (pour afficher le graph on mets TRUE)
[pic 14]
A l'issue de cette première approche, on peut diviser le premier plan factoriel en quatre parties : les athlètes rapides et puissants, les athlètes lents, les athlètes rapides mais faibles et les athlètes ni forts ni rapides, relativement parlant.
XX$call$ecart.type #Affichage ecart-type de X
[pic 15]
XX$eig #Affichage Valeurs Propres de X[pic 16]
XX$ind$contrib #Contribution des individus de X
CTR(ei)>1/n=0.03
[pic 17]
XX$var$contrib #Contribution des variables de X
CTR(Xj) > 1/p=0.1
[pic 18]
XX$var$cor #Matrice corrélation des variables de X
[pic 19]
barplot(XX$eig[, 2], main= "Histogramme des valeurs propres ", names.arg=rownames(XX$eig), xlab= "Axes ", ylab= "Pourcentage d’inertie ", cex.axis=0.8, font.lab=3, col= "orange")
[pic 20]
Les deux premières dimensions contiennent 50% de l'inertie totale (l'inertie est la variance totale du tableau de données, i.e. la trace de la matrice des corrélations).
A1 = princomp(X[, 1 :10],cor = TRUE) #Table variances unitaires par colonne de X
[pic 21]
XXX = PCA(X, scale.unit=TRUE, ncp=5,quanti.sup=11, graph=T) #Créations de la variable illustrative score
EXERCICE 3 :
XX=PCA(f, graph = T)
d.xx<- dist(XX)#matrice des distances entre individus
[pic 22]
#CAH - critère de Ward
#method = « ward.D2 » correspond au vrai critère de Ward
#utilisant le carré de la distance
xx.ward <- hclust(d.xx,method="ward.D2")[pic 23]
#affichage dendrogramme
plot(xx.ward)
[pic 24]
#dendrogramme avec matérialisation des groupes
rect.hclust(xx.ward,k=4)
#découpage en 4 groupes
groupes.xx <- cutree(xx.ward,k=4) [pic 25]
sort(groupes.X) #lister des groupes
[pic 26]
acp <- princomp(X,cor=T,scores=T) #ACP normée
plot(1:10,acp$sdev^2,type="b",xlab="Nb. de facteurs",ylab="Val. Propres") #screeplot - 2 axes retenus
[pic 27]
biplot(acp,cex=0.65) #biplot
...