Formation R
TD : Formation R. Recherche parmi 300 000+ dissertationsPar Fato Lak • 6 Décembre 2022 • TD • 1 652 Mots (7 Pages) • 211 Vues
Formation R initiation
Enoncés des exercices
Exercice 1 : environnement RStudio
1) créer son environnement de travail
Dans le répertoire par défaut, créer un nouveau dossier pour la formation initiation ; dans ce dossier, créer trois sous-dossiers : un pour les données à importer, un pour enregistrer les programmes, et un dernier pour exporter les résultats
2) répertoire de travail
- afficher le répertoire de travail
- modifier le répertoire de travail pour que ce soit le dossier consacré à la formation
3) programmes et manipulations de données
- créer un nouveau programme ; l'enregistrer avec le nom « exercice1 » dans le dossier destiné aux programmes
- charger les librairies dplyr, tidyr, questionr, openxlsx et haven
- la table nommée « iris » est un jeu de données fourni avec R :
- combien de colonnes contient cette table ?
- combien de lignes ?
- quels sont les noms des variables ?
- afficher les 10 premières lignes de la table
- quel est le type de chacune des variables de la table ? (deux façons différentes)
- calculer la moyenne de la variable Sepal.Length
- mettre en majuscule les variables caractère de la table
4) import de données
- importer dans un objet une table disponible sur le serveur
visualiser les données importées et vérifier qu'elles correspondent à ce qui est attendu
exemples de données à importer :
- données du Lycée Saint Sernin extraites du SCO :
S:/D2P/Commun/000 Echanges/Formation R/LYCSSN.rds
- effectifs des lycées de Toulouse dans :
S:/D2P/Commun/000 Echanges/Formation R/EtabToulouse.csv
- libellés des mefstat 4 dans :
S:/D2P/Commun/000 Echanges/Formation R/Mefstat4.xlsx
- extrait des résultats au bac 2020 :
S:/D2P/Commun/000 Echanges/Formation R/aca16_bac20.sas7bdat
- supprimer tous les objets en mémoire
Exercice 2 : prêts des bibliothèques de Toulouse
Créer un nouveau programme pour l'exercice, et l'enregistrer dans le dossier réservé aux programmes.
1) préparation des données
- importer dans le dossier des données, le fichier intitulé : prets-annuels-de-documents-du-reseau-de-la-bibliotheque-de-toulouse.csv
2) import des données
- importer les données dans un objet intitulé biblio
3) visualisation des données
- afficher les 10 premières et les 10 dernières lignes de la table
- afficher les noms des variables de la table (noms des colonnes)
- combien y a-t-il de variables de type caractère ?
4) sélection de colonnes
- sélectionner les colonnes annee, type_de_materiel et all dans une table biblio_tot
- sélectionner les colonnes annee, type_de_materiel, pav, mgm, dau, emp, cyp, cabanis dans une table biblio_princip (deux façons différentes)
- réorganiser la table biblio_princip pour mettre les bibliothèques dans le sens inverse
- sélectionner les colonnes annee, type_de_materiel, ainsi que toutes les bibliothèques dont le nom commence par « c » dans une table biblio_c
5) filtre de lignes
- créer la table biblio_2018, qui contient les données de l'année 2018, et supprimer la variable « annee » de cette table
- afficher les genres de documents qui concernent plus de 500 000 emprunts dans l'ensemble des bibliothèques en 2018
- afficher les données du genre « bandes dessinées » (codé « BD » ou « BANDES DESSINEES » dans les données)
- afficher les années pour lesquelles la bibliothèque Ancely a prêté plus de 100 films
6) gestion des doublons
- vérifier qu'il n'y a pas de doublons dans la table sur l'année et le type de matériel
- quels sont les différents type de matériel dans la table ?
- pour quelles années a-t-on les données sur les emprunts ?
7) tri d'une table
- trier la table biblio par annee et par type de matériel
- trier la table biblio par annee par type de matériel du plus emprunté au moins emprunté, et afficher le résultat
- comment faire pour que les types de matériel non empruntés apparaissent au début du tri ?
8) renommage de variables
- renommer la variable type_de_materiel par TYP_MAT et all par total dans la table biblio
- passer le nom de toutes les variables en majuscules dans la table biblio
9) création et modification de variables
- modifier la variable ANNEE pour concatener « ANNEE » avec l'année, avec un séparateur « _ » (par exemple : « ANNEE_2010 »)
- retrouver l'année par extraction de la chaîne « ANNEE »
- créer les variables suivantes pour comptabiliser le nombre d'emprunts en médiathèque, dans la bibliothèque Périgord et dans les bibliothèques de quartier, et afficher le résultat :
MEDIATHEQUE = CABANIS + MCT,
BEP = PERIGORD,
BIB_QUART pour les bibliothèques de quartie
- le résultat est-il celui attendu ? Pourquoi ? Comment y remédier ?
- créer la variable PART_MEDIATHEQUE, qui est égale à la part des emprunts à la médiathèque dans les emprunts totaux, et l'arrondir à un chiffre après la virgule
- créer une une variable TYPE_emprunt qui vaut selon les modalités de TYP_MAT
- IMPRIMES pour les modalités Imprimés, IMPRIMES - FICTION, IMPRIMES – DOCUMENTAIRES, IMPRIMES - CONSERVATION, PERIODIQUES
- BD pour les modalités BD ou BANDES DESSINEES
- MUSIQUE_FILM pour les modalités CDVROM, Films, CD, MUSIQUES ENREGISTREES, FILMS
- AUTRES sinon
10) concaténation et fusion de tables
- extraire les tables de l'année 2017 et de l'année 2018 en sélectionnant les variables ANNEE, TYP_MAT, TYPE_emprunt, TOTAL, MEDIATHEQUE, BEP, BIB_QUART, PART_MEDIATHEQUE
- concaténer les tables (ajouter les lignes)
- fusionner les tables sur les variables TYP_MAT et TYPE_emprunt, et supprimer les colonnes dont le nom commence par ANNEE.
11) calculs agrégés
- calculer le nombre d'emprunts toutes années et toutes bibliothèques confondues
...