LaDissertation.com - Dissertations, fiches de lectures, exemples du BAC
Recherche

Projet de fin d'étude - Analyse de données

Étude de cas : Projet de fin d'étude - Analyse de données. Recherche parmi 300 000+ dissertations

Par   •  14 Mai 2019  •  Étude de cas  •  688 Mots (3 Pages)  •  590 Vues

Page 1 sur 3

Ecole Supérieure de Technologie de Salé - Université Mohammed V

[pic 1][pic 2][pic 3]


Sujet 1 :

On installe les packages nécessaires avec la lecture du tableau :

[pic 4]

EXERCICE 1 :

Représenter les données après centrage et réduction par colonne :

f<-read.table("decathlon.txt")

dcr <- as.data.frame(scale(f))

bxr <- boxplot(dcr, main = "Les données centrer reduites", col = grey(0.8))

points(seq_len(ncol(f)), dcr[nrow(f), ], col = "red",

       cex = 2)

legend("topright", legend = "Le dernier", pch = 1, col = "red",

       pt.cex = 2, bty = "n")

[pic 5]

Pourquoi faut-il enlever le dernier individu et supprimer la dernière colonne ?

-On sélectionne le nombre d’axes à partir du graphe des valeurs propres :

library(ade4)

pca1 <- dudi.pca(f, scannf = FALSE)

barplot(pca1$eig)

[pic 6]

[pic 7][pic 8]

[pic 9]

        [pic 10]

[pic 11]

[pic 12]        [pic 13]

EXERCICE 2 :

XX=PCA(X[,1:10],scale.unit=TRUE, ncp=5, graph=T) #Génération de l'ACP X sans la colonne score (pour afficher le graph on mets TRUE)

[pic 14]

A l'issue de cette première approche, on peut diviser le premier plan factoriel en quatre parties : les athlètes rapides et puissants, les athlètes lents, les athlètes rapides mais faibles et les athlètes ni forts ni rapides, relativement parlant.

XX$call$ecart.type  #Affichage ecart-type de X

[pic 15]

XX$eig   #Affichage Valeurs Propres de X[pic 16]

        

XX$ind$contrib   #Contribution des individus de X

CTR(ei)>1/n=0.03

[pic 17]

XX$var$contrib   #Contribution des variables de X

CTR(Xj) > 1/p=0.1

[pic 18]

XX$var$cor  #Matrice corrélation des variables de X

[pic 19]

barplot(XX$eig[, 2], main= "Histogramme des valeurs propres ", names.arg=rownames(XX$eig), xlab= "Axes ", ylab= "Pourcentage d’inertie ", cex.axis=0.8, font.lab=3, col= "orange")

[pic 20]

Les deux premières dimensions contiennent 50% de l'inertie totale (l'inertie est la variance totale du tableau de données, i.e. la trace de la matrice des corrélations).

A1 = princomp(X[, 1 :10],cor = TRUE) #Table variances unitaires par colonne de X

[pic 21]

XXX = PCA(X, scale.unit=TRUE, ncp=5,quanti.sup=11, graph=T) #Créations de la variable illustrative score

EXERCICE 3 :

XX=PCA(f, graph = T)

d.xx<- dist(XX)#matrice des distances entre individus

[pic 22]

#CAH - critère de Ward

#method = « ward.D2 » correspond au vrai critère de Ward

#utilisant le carré de la distance

xx.ward <- hclust(d.xx,method="ward.D2")[pic 23]

#affichage dendrogramme

plot(xx.ward)

                          [pic 24]

#dendrogramme avec matérialisation des groupes

rect.hclust(xx.ward,k=4)

#découpage en 4 groupes

groupes.xx <- cutree(xx.ward,k=4) [pic 25]

sort(groupes.X) #lister des groupes

[pic 26]

acp <- princomp(X,cor=T,scores=T) #ACP normée

plot(1:10,acp$sdev^2,type="b",xlab="Nb. de facteurs",ylab="Val. Propres") #screeplot - 2 axes retenus

[pic 27]

biplot(acp,cex=0.65) #biplot

...

Télécharger au format  txt (5 Kb)   pdf (1.4 Mb)   docx (381.6 Kb)  
Voir 2 pages de plus »
Uniquement disponible sur LaDissertation.com