Etude d’un jeu de données avec des valeurs manquantes
Fiche : Etude d’un jeu de données avec des valeurs manquantes. Recherche parmi 300 000+ dissertationsPar Willy Willy • 26 Novembre 2017 • Fiche • 260 Mots (2 Pages) • 776 Vues
Page 1 sur 2
Exercice 1 : Etude d’un jeu de données avec des valeurs manquantes
- Lire le fichier exAdata.csv et stocker les données dans un data frame mesDonnees. Le fichier contient des titres sur la première ligne dans l’ordre suivant : x1, y1, x2, y2, x3, y3, x4 et y4.
- Le fichier possède-t-il des données manquantes ? Indiquer leurs nombres, et commenter le paterne (cf : la fonction md.pattern du package mice).
- On se propose d’élaborer trois stratégies afin de résoudre ce problème :
- Suppression de l’ensemble de l’observation (la ligne) quand il existe au moins une valeur manquante.
- Remplacer la ou les valeurs manquantes par la moyenne de la variable
- Utiliser l’algorithme KNN pour imputer les valeurs manquantes
Pour chaque type d’imputation :
- Calculer la moyenne et l’écart-type de chacune des variables xi et yi de l’échantillon
- Calculer la corrélation entre les xi et yi (cf. fonction cor)
- Tracer sur un même graphique les 4 jeux de données (xi,yi). On pourra utiliser la commande par(…). Que constatez-vous ? [pic 1]
Exercice 2 : écriture d’une fonction - Algorithme de Box-Muller
- Ecrire une fonction f qui calcule l’expression suivante :
[pic 2]
- Générer deux variables aléatoires U et V uniformément distribuées dans ]0,1]. On prendra une taille de 10000.
- Calculer f(U,V)
- Tracer la distribution de f(U,V). On pourra utiliser la fonction hist
- Que remarquez-vous ? effectuer le test adéquat pour justifier votre conclusion.
...
Uniquement disponible sur LaDissertation.com