Traitement automatique des langues
Synthèse : Traitement automatique des langues. Recherche parmi 300 000+ dissertationsPar Loukoum30 • 27 Janvier 2020 • Synthèse • 2 066 Mots (9 Pages) • 604 Vues
Introduction
Depuis de nombreuses années, la même question se pose qu’entend-t-on par langage naturel ?
En tant qu’être humain, ce qui nous différencie des machines c’est notre capacité à comprendre, dès notre jeune âge, ce que nous lisons sans analyses particulières (thématiques, syntaxique ou autre). Cependant, les machines, elles, ne savent faire que cela.
Toutes les sociétés qui ont été découvertes au fil des années parlaient au moins 1 langue. Aujourd’hui encore énormément de langues sont pratiquées à travers le monde. Dès notre plus jeune âge nous sommes capables de tenir une conversation dans notre langue maternelle, une prouesse qu’aucun ordinateur ne peut exécuter.
Les langues humaines appelées aussi “Langues naturelles” s’opposent à ce qu’on appelle couramment les “ langues Artificielles” qui représentent notamment les langages utilisés dans les mathématiques ou dans les langages de programmation.
Au delà de la grande diversité des langues, le travail des linguistes se concentre principalement sur la recherche de similitudes, de structures communes entre les langues. Ils ne cherchent pas forcément à comprendre les langues et leur sens mais surtout à comprendre comment elles fonctionnent, et quels sont les principes et les caractéristiques qui régissent ces dernières. Ils sont là seulement pour étudier les langues telles qu’elles se parlent. En effet les langues évoluent et se modifient au fil du temps et les linguistes ne sont là que pour observer ces changements et tenter de comprendre les logiques derrières ces derniers.
Le traitement automatique du langage naturel (TALN) représente le domaine qui a pour but de créer des applications capables de traiter du langage naturel. Pour le dire de manière plus ‘’simple’’, le but serait que l'ordinateur soit capable de reconnaître, d’utiliser, de générer ou d’analyser des données de langage qui sont exprimées en ‘’Langage Naturel’’.Le TALN regroupe de nombreuses disciplines très variées telles que l’informatique, la linguistique, les mathématiques, l’IA…
La plus grande difficulté du TALN est qu’il repose sur le langage naturel (Nombres de langues humaines, complexité de ces dernières, ambiguïté, incertitudes…)et non pas sur le langage formel (Artificiel) qui lui est spécialement conçu pour communiquer avec des ordinateurs.
Il y plusieurs raisons pour lesquelles le TALN s'est développé, d’abord pour comprendre comment fonctionne la communication humaine. Ensuite, dans une société où les textes sont de plus en plus nombreux et sous des formes très différentes (Mails, page web..), il est primordial d’avoir la possibilité de pouvoir utiliser des applications diverses comme par exemple la traduction automatique, le résumé automatique, la récupération, le filtrage, l’extraction d’informations… qui vont permettre de répondre à des besoins spécifique. En lien direct, le nombres de personnes présentes sur le web augmente sans cesse et avec lui, le nombres de langues différentes utilisées. Il devient donc très utile de posséder des outils permettant de traiter automatiquement une grande masse de documents dans des langues différentes.
Synthèse du cours
TAL linguistique vs TAL statistique
Comme nous l’avons vu dans l’introduction, la linguistique est une des bases du développement du TAL et même si elle est utile dans certains cas, elle ne peut pas prétendre à résoudre tous les problèmes. En effet, ils existe certaines tensions entre 2 méthodes au sein du TAL. La première sur le ‘’TAL linguistique’’ c’est à dire sur celui qui va se baser principalement sur cette science pour tenter de répondre aux problématiques qui se posent. Et la deuxième qui est la ‘’TAL Statistique” qui lui, va s’appuyer principalement sur des méthodes statistiques et probabilistes. On peut voir dans cette opposition, 2 courants de pensées bien distinct, le premier plus orienté sur des avancées théoriques (TAL Linguistique) et la deuxième plutôt basée sur objectifs pratiques(TAL Statistique).
Aujourd’hui c’est la deuxième approche, le TAL Statistique, qui est devenu incontournable.En effet, avec l’accroissement des données disponibles et leurs natures, le TAL linguistique n’était pas suffisamment efficace pour répondre à cette demande.
L’importance actuellement se situe dans l’efficacité, il faut que les programmes soient capables de traiter une grande quantité des documents, le plus rapidement possible peu importe l’approche et la logique derrière et c’est donc l‘approche statistique qui permet de répondre à ces conditions.
Afin de combler les utilisateurs au mieux, les programmes doivent être capables de traiter le panel de données le plus large possible, or la linguistique ne répond pas à ces critères, elles se confrontent à 3 grosses difficultés :
• L’ambiguïté : L’approche linguistique se heurte à l’incertitude et l'ambiguïté des langues naturelles. Il devient donc extrêmement compliqué de pouvoir analyser de manière automatique un document.
• Robustesse: La robustesse consiste en la capacité d’un programme à continuer son traitement malgré le fait qu’il y ait une erreur. Or la tal linguiste est très sensible aux erreurs.
• Performance: La capacité à traiter efficacement des phrases complexes.
Pour ce qui est de l’approche statistiques, elle est basée sur des calculs qui sont réalisés à partir de corpus. Il faut modéliser un problème, pour cela il faut mettre en avant la probabilités d'événements. Par la suite, avec les statistiques on estime des valeurs pour ces probabilités, ces dernières seront ensuite appliqué lors de nouveau traitement,pour que la machine fasse un choix. Le corpus tient donc une place de choix dans les algorithmes issus de la TAL Statistique ,il permet de calibrer ces derniers. Un corpus correspond a une grande bases de textes, il doit nécessairement être composé d’un nombre suffisant de textes et il doit aussi être un échantillon représentatif du sujet ou de la population que l’on cherche à observer.
La langue naturelle est aujourd’hui beaucoup trop complexe à étudier et à faire comprendre aux machines, La TAL peut répondre à ces problèmes en partie mais il faut utiliser les moyens appropriés pour cela. Nous n’avons aujourd’hui pas les capacités, ni l'intérêt, de faire en sorte que les ordinateurs comprennent les
...