Traitement automatique de langues naturelles
Résumé : Traitement automatique de langues naturelles. Recherche parmi 300 000+ dissertationsPar elianess • 28 Janvier 2020 • Résumé • 1 146 Mots (5 Pages) • 606 Vues
Introduction
Selon Saggion[1], un résumé est un texte concis qui rend compte du contenu "essentiel" d’un autre texte, dit texte source. Un résumé permettra donc à un lecteur de décider si le document source pourrait contenir l’information recherchée ou pas. Bilatéralement le lecteur pourrait ne pas avoir la nécessité de lire la totalité d’un document si l’information recherchée existe dans ce dernier.
Qu’est-ce qu’un TALN ?
Selon françois Yvon[2], le traitement automatique du langage naturel (TALN) désigne en effet, l’ensemble des recherches et développements visant à modéliser et reproduire, à l’aide de machines, la capacité humaine à produire et à comprendre des énoncés linguistiques dans des buts de communication.
le Traitement Automatique de Langues (TAL)
Ambiguïté | Exemple |
Graphèmes | Comparaison de la prononciation du i dans : Riz, mois, nuit |
Terminaisons en conjugaison et inflection | un /S/ final marque à la fois le pluriel des noms, des adjectifs, et la deuxième personne du singulier des formes verbales. |
Propriétés grammaticales et sémantiques | Manges est ambigu à la fois morpho-syntaxiquement, puisqu’il correspond aux formes indicative et subjonctive du verbe mange. Sémantiquement > une forme de style familier. |
Fonction grammaticale des groupes de mots | Ex : il poursuit la jeune fille à vélo « À vélo » est soit un complément de manière de poursuivre (et c’est « il » qui pédale), Soit un complément de nom de fille (et c’est « elle » qui mouline |
La portée des quantificateurs, des conjonctions, des prépositions |
On peut supposer que chacun avait un verre différent, mais dans la 2eme phrase, il est probable que c’était le même cri pour tous les témoins. |
L’interprétation à donner en contexte à un énoncé | La « signification » de non, dans les deux échanges suivants : Si je vais en cours demain ? Non (négation) Tu vas en cours demain ! Non ! (Je n’y crois pas) |
le TAL statistique
Le TAL statistique cherche d’une part à résoudre le problème d’acquisition, en apprenant automatiquement des caractéristiques des données (lexique ou syntaxique) et d’autre part à apporter des solutions au problème de l’ambiguïté des données.
- Le résumé automatique de document
Le résumé selon Karen Sparck Jones consiste en « Transformation réductrice d’un texte source vers un résumé par compression du contenu à l’aide d’une sélection et/ou généralisation de ce qui est important dans le texte source »
Le résumé a deux fonctions :
- Directs : communicant l’information essentielle de la source (aperçu du document), la fonction d’actualiser les utilisateurs et d’éliminer les barrières de langues et enfin une aide à la recherche.
- Indirectes : relatif à la classification et l’indexation.
Les méthodes de production de résumés automatiques de texte peuvent être regroupées en deux familles :
Abstraction : les systèmes produisant des résumés par abstraction sont fondés sur la compréhension du document et la génération d’un véritable texte grammatical et cohérent.
Extraction : L’approche par extraction consiste en la sélection des unités (mots, phrases, paragraphes, etc.) censées contenir l’essentiel de l’informativité du document et en la production d’un extrait par assemblage de ces dernières.
Selon Aurélien Bossard[3], l’approche par extraction a fait émerger deux grandes familles : les approches symboliques et les approches statistiques.
Approches statistiques (attachées aux fréquences) | Approches symboliques (attachées aux symboles) | |
Luhn (1958) (Créateur du résumé automatique) | Baxendale (1959) | Edmundson (1969) |
|
|
|
- Exemple de systèmes
Système | Description |
CORTEX | Cortex est l’acronyme de COndensés et Résumés de TEXt
|
ENERTEX |
|
ARTEX |
|
Evaluation des résumés
Un système TAL pourrait-il produire un langage naturel semblable a être humain ? comment ce système pourrait être évalué ???
...