Recherche D'information
Documents Gratuits : Recherche D'information. Recherche parmi 300 000+ dissertationsPar dorra525 • 18 Décembre 2012 • 821 Mots (4 Pages) • 911 Vues
1) Conseils de réalisation
Le but de ce projet est de réaliser un système simple de recherche de documents. Un corpus de documents en format texte est à votre disposition (FileBD.zip). Vous devez indexer ce corpus et ensuite implémenter différents modèles de recherche.
Le langage de programmation est à votre choix : C/C++ ou Java. Votre programme peut s'exécuter à partir de la ligne de commande :
• En java : java <votre fichier>
Si vous utilisez un environnement intégré de programmation, vérifiez bien à la fin que vos fichiers s'exécutent depuis la ligne de commande. Vous devrez fournir à la fin toutes les instructions pour exécuter et utiliser vos programmes.
Il est préférable de faire plusieurs petits programmes faisant chacun une tâche spécifique qu'un gros programme devant tout réaliser. Il n'est pas demandé aucune interface à vos programmes. Les arguments seront donnés en ligne de commande et les résultats seront produits dans des fichiers ou directement sur la sortie standard.
2) Indexation par fichiers inverses
La première partie concerne l'indexation des du corpus de documents. Différentes étapes sont à réaliser.
• Pré-traitements
1. Tokenisation : ce traitement consiste à séparer chaque ligne en une séquence de mots. Pour ce projet, on procède de façon simplifiée : on considère que les espaces et toutes les ponctuations constituent des séparateurs de mots. On enlève les ponctuations pour obtenir une liste de termes séparés par des espaces uniquement.
2. Comparaison avec la stop-list : Pour chaque mot reconnu, il faut le comparer avec une liste qui contient tous les mots non-significatifs. Si un mot fait partie de cette liste, on l'enlève du document (terme non indexé).
3. Passage en minuscule : Pour simplifier l'indexation, puis la recherche, on transforme toutes les lettres majuscules en minuscules.
4. Lemmatisation : implémentez l’algorithme de Porter vu en cours.
• Extraction des index des documents (fichier d'index) : elle correspond à une liste comme suit :
nom du document -> liste de <mots et fréquences>
file01-> {<preliminary, 1>, <report, 1>, <international,1>, <algebraic, 1>, <language,1>}
1. Statistique : Dès qu’un mot significatif est rencontré, vous devez incrémenter de 1 sa fréquence d’occurrence dans le document.
Par exemple, on devrait avoir le résultat comme suit :
file01 -> {<preliminary, 1>, <report, 1>, <international,1>, <algebraic, 1>, <language,1>}
2. Tri des index
Pour une recherche plus efficace on doit avoir une liste comme suit :
file02 -> {<algebraic, 1>, <international, 1>, <language, 1>, <preliminary, 1>, <report, 1>}
3. Regroupement des index
Vos fichiers d'index et inverses seront sous la forme de fichiers texte. Ecrivez les fonctions de lecture et d'écriture pour ces fichiers. Vous remettrez à la fin vos fichiers (pour utiliser votre programme).
Au
...