Introduction au TAL – Traitement automatique des langues.
TD : Introduction au TAL – Traitement automatique des langues.. Recherche parmi 300 000+ dissertationsPar minaYakiii • 18 Avril 2022 • TD • 5 274 Mots (22 Pages) • 339 Vues
Hn
4 notes - 4 quizz en début de séance
Introduction au TAL – Traitement automatique des langues.
Panorama :
Domaine technologique : domaine définit par l’utilisation de technique pour résoudre un certain nombre de pb.
Ex : Lx = domaine de connaissances, objet = la langue
TAL = défini par la dimension technologique, on essaie de réaliser des actions automatiquement.
Il ne faut pas le confondre avec internet ou la lx
AUTRES Ex de domaine technologiques : transformation du pétrole.
TAL = Application de méthodes informatiques à tous les aspects du langage humain.
Traducteur ne fait pas du tal si il traduit a la main.
- Si il utilise un système informatique / outil info alors ce traducteur fait du TAL.
TAL domaine élaboré 70 dernières années a subi des évolutions.
Traitement réalisé a des machines mécaniques mais il y a eu l’apparition de l’informatique. Depuis que l’info existe on a commencé à essayer de traiter la langue sous différent aspects. Tt élément la constitue le domaine du tal.d
EX. Système de communication verbaux qui utilise le signal acoustique pour se manifester.
Si on veut faire un système informatique, cv constituer à manipuler informatiquement du signal de parole.
Phonographe : déjà un peu du tal car système capable d’appliquer des méthodes automatiques a de la parole, partie orale de la langue.
Système simple : faisait que restituer ce qu’ils entendaient avec des pertes.
Première division du travail en TAL : diff traitement de l’oral et de l’écrit.
La langue peut aussi faire l’objet d’une transcription écrite.
L’écrit est une pratique très ancienne qui permet de retranscrire une partie des infos de l’oral (partie pertinente) façon fidèle de traduire l’oral et ça a pour conséquence qu’il y a deux sous parties crée en TAL
Les personnes qui font du traitement de signal (mathématique) ORAL
Traitement de chaines de caractères. ECRIT.
Site de traduction. Application de domaine info a un système écrit .
On va manipuler une transcription de la langue, alphabétique , latin….
Transcription syllabique : suite de symbole.
Autre contraste : lié pq est-ce qu’on applique des méthodes info a la langue, que cherche-t-on a faire ?
- Communication homme machine. L’ordinateur reçoit le signe linguistique, le traite, le transforme, le comprend. OUTIL pour interagir avec les ordis. Méthode tjr considérée comme intéressante mais en pratique la comm se fait sans la langue.
-Tal s’occupe de la transformation de matières linguistique. Application qui manipule la matière linguistique mais pour la transformer, traitement utile pour les humains. (résumeur, correcteur.°
2e contraste :
Avec essor d’internet quantité de source lx est devenu phénoménale, on la trouve utile a traiter avec des méthodes de TAL mais surtout indispensable.
Discipline utile pour faire du TAL : sous discipline de l’informatique
- La linguistique. (aspect généraux et spécifique du fonctionnement des langues)
- Questions en lx très pertinente en TAL
- L’intelligence artificielle -> réaliser de façon artificielle des tâches que les humains savent faire, couvre même un logiciel de comptabilité. Mais il fait que des trucs répétés sans réfléchir. Système qui reconnait des objets, visage , diagnostiquer une tumeur = réalisent des tâches que les h savent réaliser et le fond de manière automatique.
En lx on cherche a faire ce que les humains font avec la langue.
TAL sous partie d’intelligence arti.
Intelligence arti : existe depuis longtemps.
Automatiser une recherche fait par un expert.
Apprentissage automatique : on crée des systèmes info oql on va présenter des milliards d’ex de problème résolu. (associer un nom a un visage, image d’un fruit… mais aussi traduire une phrase dans une autre phrase, on donne des milliers de phrase a un ordi et il va chercher les régularités, similitude et va appliquer.)
Si il sait faire un apprentissage automatique, on aura plus besoin de la lx ! car il va chercher tout seul.
Google trad était en compet avec systran entièrement écrit a la main, écrit par des lx. Et le système systran était aussi bon que celui de google alors que google c’était juste un apprentissage automatique.
DEEPL
Après informatique, linguistique et intelligence arti
Ingenierie (optimisation)
deepl
II. Présentation du domaine sous la forme des applications développée ajd en TAL
Traitement ,o uutil info qui permettent de réaliser ce dont on parle.
- Traduction automatique, il existe des dizaines de programmes qui prennent un texte et le modifie.
Aide a la traduction -< programme info qui ne font pas comme google trad mais qui vont vous aider a traduire comme la correction orthographie. Ils vont faire apparaitre, des tournures de mots…
- Correction orthographie. Il existe toute sorte de variantes. Correction orthographique existe sur d’autres formes que reverso. Il existe des systèmes qui force à parler dans un registre de langue.
Simplified english ou on a que 3000 mots de voc. Dans certains domaines on utilise cette version simplifiee pour par ex des documentations, pr éviter qdes mauvaises compréhensions
Deuxième famille :
- Applications qui traitent de la parole ; reconnaissance de parole. Système qui prend le signal de parole et qui te le donne sous forme écrite.
- Synthèse de parole : SYSTEME qui produisent des phrases à partir de textes écrits. Siri, SNCF. Dicteur de parole= synthèse de parole.
Petit bout de son qui sont collées .
Application utilisatrice du TAL. Module du tal qui interviennent dans d’autres appli.
...