LaDissertation.com - Dissertations, fiches de lectures, exemples du BAC
Recherche

Projet de série temporelle

Mémoire : Projet de série temporelle. Recherche parmi 300 000+ dissertations

Par   •  10 Mars 2019  •  Mémoire  •  2 185 Mots (9 Pages)  •  788 Vues

Page 1 sur 9

TP : Intégration de données d’entreprise avec Talend Open Studio

Partie 1 : Prise en main de Talend Open Studio (TOS)

  1. Résumé des fonctionnalités de TOS pour l’intégration de données
  1. Extraction-Transformation-Chargement
  1. Téléchargement de TOS
  2. Installation et démarrage du programme
  3. Téléchargement des données de test
  1. Fichiers
  1. Rappel sur les fichiers textes
  2. customers_demo5mn.csv contenant une liste de clients
  3. states_demo5mn.txt contenant la liste des états des USA
  1. Bases de données MySQL
  1. Rappel sur les bases de données relationnelles
  2. Sakila contenant les acteurs et les films
  3. World contenant les villes et pays du monde
  1. Création d’un nouveau projet d’intégration de données avec TOS
  2. Prise en main de l’environnement (interface) de TOS
  3. Les principales étapes de création d’un système d’intégration de données
  1. Modélisation
  1. Source : Définir les données à migrer
  2. Transformations : Définir les transformations à effectuer sur les données
  3. Destination : Décider de la destination
  1. Créer un Job TOS (à partir du menu gauche)
  1. Transférer la liste des états dans states_demo5mn.txt vers la sortie standard tLogRow
  1. Créer les métadonnées pour chaque source (à partir du menu gauche, l’explorateur d’objets)
  2. Créer les composants source, transformation et destination (à partir du menu droit, la palette à outils)
  3. Relier les composants avec un click-droit, puis ligne (row)
  1. choisir main pour les composants sources vers transformations et new output pour les composants transformations vers destinations.
  1. Configuration des composants (avec l’onglet component en bas de l’espace de travail)
  1. Built-in vs. Referentiel
  1. Sauvegarde du projet
  2. Exécution (avec l’onglet Exécuter (job ...) en bas de l’espace de travail)
  1. Exécution simple : en block
  2. Exécution debug : pas à pas et permet de visualiser les résultats

Partie 2 : Transformation avec TMap

  1. Cas d’étude : transfert des données sur les clients du fichier customers_demo5mn.csv vers un fichier customers_demo5mn.txt en mettant les noms de famille en majuscule
  2. Le composant TMap
  3. Filtre des colonnes
  1. Sélection des variables à conserver sur le flux de données
  1. Constructeur d’expression
  1. StringHandling  UPCASE
  2. Concaténation de chaine de caractère
  3. Transformation de date (String à Date)
  4. Utilisation de l’expression conditionnelle équivalent à if ... then ... else 
  1. condition ? ValeurVraie : ValeurFausse
  1. Création de clé primaire sur le schéma de sortie
  2. Renommage de variable et casting de type en utilisant la colonne du milieu de l’éditeur de tMap (utile pour des variables longues et le casting sophistiqué)

Partie 3 : Filtre

  1. Activer le filtre (éditeur d’expression)
  2. Gestion des filtres sur les types de données
  1. Sur les entiers (pas grand problème, utiliser les opérateurs classiques)
  2. Sur les chaines de caractères (utiliser les méthodes de la classe string)
  1. Ex : row.attribute.equals("Mandela")
  1. Sur les dates (utiliser les méthodes de comparaison de la classe TalendDate)
  1. TalendDate.getPartOfDate("YEAR",TalendDate.parseDate("yyyy-MM-dd", "2010-12-26")) == 2010 (résultat = True)
  2. TalendDate.compareDate(myDate,myDate2,"yyyy-MM-dd")
  1. Exemple : row1.revenue >= 50000 &&  row1.states.equals("NC") && (TalendDate.getPartOfDate("YEAR",TalendDate.parseDate("mm/MM/yyyy", row1.date)) == 2006)

Partie 4 : Jointure avec TMap

  1. Cas d’étude : liste des clients avec le nom complet des états
  2. Le tri avant la jointure avec le composant TSortRow
  3. Configuration de la tMap pour la jointure
  1. Tester sans mettre de clé de jointure
  1. résultat : produit cartésien des deux sources
  1. Avec la clé de jointure
  1. résultat : jointure externe gauche
  1. Activer les paramètres de jointure et changer Join Model en Inner Join
  1. résultat : jointure interne, seules les lignes de la table principale ayant des correspondances dans la deuxième table apparaissent dans le résultat
  1. Gestion des rejets : les lignes ne vérifiant pas les conditions de filtre ou de jointure peuvent être récupérées
  1. Créer un "new output" (main) en faisant un click-droit sur le tMap
  2. Configurer ce new output à droite de la fenêtre d’édition du tMap en cliquant sur le petit bouton tMap settings
  3. Mettre Catch output reject à true
  4. Dans le cas d’une jointure interne, mettre aussi Catch lookup inner join reject à true

Partie 5 : Fonction d’agrégation

Les fonctions d’agrégation sont indispensables dans les systèmes d’aide à la décision où les décideurs souhaitent analyses des données sur une échelle macroscopique

  1. Composant tAggregateRow
  1. Comptage
  1. Cas d’étude : Nombre de clients par état
  1. Somme
  2. Moyenne
  1. Cas d’étude : revenu moyen des clients par état (avec code d’abord, ensuite avec nom complet des états)
  1. Composant tAggregateSortedRow pour des lignes triées auparavant

Partie 6 : Sources et destinations bases de données relationnelles

Dans cette partie, nous allons voir l’utilisation des sources de données de type Base de données relationnelles. Notre exemple sera basé sur le SGBD MySQL en utilisant des bases de données de test Sakila et World.

...

Télécharger au format  txt (13.2 Kb)   pdf (191.5 Kb)   docx (224.3 Kb)  
Voir 8 pages de plus »
Uniquement disponible sur LaDissertation.com