Le Datamining
Rapports de Stage : Le Datamining. Recherche parmi 300 000+ dissertationsPar hamdani • 18 Mars 2013 • 3 566 Mots (15 Pages) • 965 Vues
Introduction
Les données brutes, bien que disponibles en quantité qui augmente de façon exponentielle, n’auront presque aucune valeur, si elles ne sont pas analysées et interprétées. Ce qui est le plus important en fait, c’est les connaissances pour lesquelles nous sommes tous assoiffés et qui sont obtenues par la compréhension de ces données.
Cependant, on est souvent devant un paradoxe : plus on a de données plus on peut espérer extraire de la connaissance, mais plus ce processus d’extraction devient difficile. Le datamining qui est une technologie nouvelle et puissante donne la possibilité aux entreprises de se concentrer sur les informations les plus importantes contenues dans leurs entrepôts de données (datawarehouses).
Dans ce chapitre, nous allons présenter les principaux concepts liés à cette discipline récente. Sa démarche générale, quelques unes de ses techniques parmi les plus utilisées ainsi que quelques domaines d’application, en particulier dans les domaines des assurances et des banques, seront détaillés.
I.1 Datamining
Le terme datamining a pris son essor depuis 1995 ; mais les techniques qu’il utilise ont plusieurs décennies.
Le datamining appelé aussi fouille des données, est l’ensemble des méthodes et techniques destinées à l’exploration et l’analyse des bases de données informatiques (souvent volumineuses), de façon automatique (ordinateur) ou semi-automatique, en vue de détecter dans ces données des règles, des associations, des tendances inconnues ou cachées, des structures particulières restituant l’essentiel de l’information utile tout en réduisant la quantité des données. Le datamining se base donc sur des bases de données volumineuses stockées dans ce qui est communément appelé entrepôt de données (datawarehouse) [1].
I.1.1 Entrepôt de données (Datawarehouse)
Plus précisément, le contexte informationnel du datamining est celui du datawarehouse qui est une collection de données orientées sujets, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.
Ainsi, les données, issues des applications transactionnelles ou d'origine externe, sont mises sous une forme homogène et stockées sur des supports de grande capacité; elles sont organisées par sujet et s'accumulent continuellement (ce sont des données historiques). L’entrepôt de données joue le rôle d'une véritable mémoire de l'entreprise où les informations relatives aux événements significatifs sont conservées sous forme structurée (base de données). Différents outils d'extraction et de traitement (systèmes de gestion de base de données, SGBD) comme oracle, permettent ensuite d'utiliser ces informations pour l'aide à la prise de décision [2].
I.1.2 Datamining vs statistiques
Contrairement à la méthode statistique, le datamining ne nécessite jamais que l'on établisse une hypothèse de départ qu'il s'agira de vérifier. C'est des données elles-mêmes que se dégageront les corrélations intéressantes, le logiciel n'étant là que pour les découvrir, le datamining se situe à la croisée des statistiques, de l'intelligence artificielle et des bases de données. Les programmes d’analyses sont lancés sur la base de données, sans objectifs du genre « trouver la corrélation entre telle et telle données ».
On pourrait croire que les techniques de datamining viennent en remplacement des statistiques. En fait, il n'en est rien et elles sont omniprésentes. On les utilise :
• pour faire une analyse préalable ;
• pour estimer ou alimenter les valeurs manquantes ;
• pendant le processus d’évaluation de la qualité des estimations ;
• après le processus, pour mesurer les actions entreprises et faire un bilan.
Par ailleurs, certaines techniques statistiques récentes (analyse en composantes indépendantes) peuvent être apparentées aux techniques de datamining. Les statistiques et le datamining sont tout à fait complémentaires [3].
I.2 Processus du datamining
Nous avons regroupé les tâches à effectuer en plusieurs étapes, de la position du problème à l’intégration des connaissances.
I.2.1 Poser le problème
Dans la première phase, on expose le problème et on définit les objectifs. Pour ce faire, on recueille les intuitions et les connaissances existantes des experts du domaine concerné, et on formule le problème à résoudre, tel qu’il sera possible de lui appliquer les techniques et outils de modélisation.
En suite, il faut connaître la typologie du problème (affectation ou structuration). Si à priori, on reconnaît l’appartenance des éléments à une ou plusieurs classes, il s’agira de définir des facteurs d’affectation. Si l’objectif est plutôt de mettre en évidence des classes ou des facteurs de différenciation, on cherchera à identifier des facteurs de structuration.
Ayant défini le type de problème, on doit bien savoir ce qu’on attend comme résultat et l’exploitation qu’on en fera. Ces dernières connaissances faciliteront les choix à effectuer dans les étapes suivantes.
I.2.2 La recherche des données
Il s’agit dans cette phase de déterminer la structure générale des données ainsi que les règles utilisées pour les constituer. La sélection des données doit être optimale et peut nécessiter la consultation d’experts, afin de déterminer les attributs aptes à décrire la problématique.
En suite, grâce à des taxinomies, il faudra réduire le nombre des variables obtenues pour faciliter une généralisation du problème. Cette étape peut fortement conditionner la qualité des résultats du processus de datamining.
I.2.3 La sélection des données pertinentes
On effectue une collecte et une sélection de données. Il faut constituer une base d’informations qui permettent de construire l’apprentissage, c’est à dire la construction de modèles en recherchant dans le passé des évènements similaires.
Ce travail peut nécessiter l’intervention de toute une équipe et sera plus ou moins
...