LaDissertation.com - Dissertations, fiches de lectures, exemples du BAC
Recherche

Traitement automatique de langues naturelles

Résumé : Traitement automatique de langues naturelles. Recherche parmi 300 000+ dissertations

Par   •  28 Janvier 2020  •  Résumé  •  1 146 Mots (5 Pages)  •  606 Vues

Page 1 sur 5

Introduction

Selon Saggion[1], un résumé est un texte concis qui rend compte du contenu "essentiel" d’un autre texte, dit texte source. Un résumé permettra donc à un lecteur de décider si le document source pourrait contenir l’information recherchée ou pas. Bilatéralement le lecteur pourrait ne pas avoir la nécessité de lire la totalité d’un document si l’information recherchée existe dans ce dernier.

Qu’est-ce qu’un TALN ?

Selon françois Yvon[2], le traitement automatique du langage naturel (TALN) désigne en effet, l’ensemble des recherches et développements visant à modéliser et reproduire, à l’aide de machines, la capacité humaine à produire et à comprendre des énoncés linguistiques dans des buts de communication.

le Traitement Automatique de Langues (TAL)

Ambiguïté

Exemple

Graphèmes

Comparaison de la prononciation du i dans :

Riz, mois, nuit

Terminaisons en conjugaison et inflection

un /S/ final marque à la fois le pluriel des noms, des adjectifs, et la deuxième personne du singulier des formes verbales.

Propriétés grammaticales et sémantiques

Manges est ambigu à la fois morpho-syntaxiquement, puisqu’il correspond aux formes indicative et subjonctive du verbe mange.

Sémantiquement > une forme de style familier.

Fonction grammaticale des groupes de mots

Ex : il poursuit la jeune fille à vélo

« À vélo » est soit un complément de manière de poursuivre (et c’est « il » qui pédale),

Soit un complément de nom de fille (et c’est « elle » qui mouline

La portée des quantificateurs, des conjonctions, des prépositions

  • Tous mes amis ont pris un verre
  • Tous les témoins ont entendu un cri

On peut supposer que chacun avait un verre différent, mais dans la 2eme phrase, il est probable que c’était le même cri pour tous les témoins.

L’interprétation à donner en contexte à un énoncé

La « signification » de non, dans les deux échanges suivants :

Si je vais en cours demain ? Non (négation)

Tu vas en cours demain ! Non ! (Je n’y crois pas)

le TAL statistique

Le TAL statistique cherche d’une part à résoudre le problème d’acquisition, en apprenant automatiquement des caractéristiques des données (lexique ou syntaxique) et d’autre part à apporter des solutions au problème de l’ambiguïté des données.

  1. Le résumé automatique de document  

Le résumé selon Karen Sparck Jones consiste en « Transformation réductrice d’un texte source vers un résumé par compression du contenu à l’aide d’une sélection et/ou généralisation de ce qui est important dans le texte source »

Le résumé a deux fonctions :

  • Directs : communicant l’information essentielle de la source (aperçu du document), la fonction d’actualiser les utilisateurs et d’éliminer les barrières de langues et enfin une aide à la recherche.
  • Indirectes : relatif à la classification et l’indexation.

Les méthodes de production de résumés automatiques de texte peuvent être regroupées en deux familles :

Abstraction : les systèmes produisant des résumés par abstraction sont fondés sur la compréhension du document et la génération d’un véritable texte grammatical et cohérent.

Extraction : L’approche par extraction consiste en la sélection des unités (mots, phrases, paragraphes, etc.) censées contenir l’essentiel de l’informativité du document et en la production d’un extrait par assemblage de ces dernières.

Selon Aurélien Bossard[3], l’approche par extraction a fait émerger deux grandes familles :  les approches symboliques et les approches statistiques.

Approches statistiques (attachées aux fréquences)

Approches symboliques (attachées aux symboles)

Luhn (1958)

(Créateur du résumé automatique)

Baxendale (1959)

Edmundson (1969)

  • Extrait = phrases significatives
  • Une phrase significative contient des mots significatifs (mots-clés)
  • Mots significatifs = fréquence entre A et B
  • Phrase : position bien définie dans les textes d’origine
  • Présence de mots clés dans des documents scientifiques.
  1. Exemple de systèmes

Système

Description

CORTEX

Cortex est l’acronyme de COndensés et Résumés de TEXt

  • L’algorithme de CORTEX combine plusieurs traitements statistiques et informationnels + un algorithme optimal de décision.
  • L’ensemble des phrases pertinentes du texte à traiter constitue un condensé du document.

ENERTEX

  • Basé sur l’énergie textuelle.
  • Une approche par réseaux de neurones.
  • Appliqué aux problèmes du résumé automatique multi-documents.
  • Efficace en termes de détection de frontières thématiques.

ARTEX

  • Un algorithme pour la synthèse automatique de texte.
  • Calculer les vecteurs de document et vecteurs lexicaux.
  • Résumé qui assemble les phrases les mieux classées.
  • Aucun post-traitement linguistique n’est requis.

Evaluation des résumés

Un système TAL pourrait-il produire un langage naturel semblable a être humain ? comment ce système pourrait être évalué ???

...

Télécharger au format  txt (8.8 Kb)   pdf (135.4 Kb)   docx (16.7 Kb)  
Voir 4 pages de plus »
Uniquement disponible sur LaDissertation.com