Les Corpus parallèles
Analyse sectorielle : Les Corpus parallèles. Recherche parmi 300 000+ dissertationsPar offf25 • 14 Septembre 2014 • Analyse sectorielle • 735 Mots (3 Pages) • 743 Vues
Corpus parallèles[modifier | modifier le code]
On appelle corpus parallèle un ensemble de couples de textes tel que, pour un couple, un des textes est la traduction de l'autre. Il est intéressant d'aligner ces corpus, c'est-à-dire de faire correspondre chaque unité du texte en langue source avec chaque unité de texte en langue cible (au niveau des paragraphes, phrases et mots) pour disposer d'un jeu de données bilingues, en particulier dans des domaines spécialisés où le vocabulaire et l'usage des mots et des expressions évoluent rapidement.
À titre d'exemple, au 26 octobre 2006, les versions française et anglaise des articles Déclin de l'Empire romain d'Occident et Decline of the Roman Empire sont des textes parallèles. Le texte source est la version anglaise, la version française est la cible, issue de la traduction.
Bien que les textes soient dits parallèles, la traduction engendre des différences structurelles entre les textes. Certaines expressions peuvent-être traduites par un nombre différent de mots. Par exemple « Theories about the decline and fall of the Roman Empire » est composé de 10 mots alors que sa traduction « Théories du déclin de l'Empire romain » n'est composée que de 7 mots. De la même façon, des phrases dans le texte source sont susceptibles d'être regroupées dans la traduction, ou, à l'inverse, scindées. Le parallélisme n'est donc jamais parfait et les méthodes d'alignement doivent en tenir compte.
Les corpus de textes parallèles sont toutefois relativement rares. À titre d'exemple, citons le Hansard canadien, qui est le compte rendu des Débats de la Chambre des communes canadienne, publié en français et en anglais.
Corpus comparables[modifier | modifier le code]
La linguistique de corpus ayant besoin de jeux de données volumineux pour travailler, les corpus parallèles sont certes très précieux, mais trop rares pour suffire à tous les usages.
Les corpus comparables sont largement plus répandus. Déjean & Gaussier (2002)2 donnent la définition suivante de corpus comparable
« Deux corpus de deux langues l_1 et l_2 sont dits comparables s'il existe une sous-partie non négligeable du vocabulaire du corpus de langue l_1, respectivement l_2, dont la traduction se trouve dans le corpus de langue l_2, respectivement l_1. »
Un corpus comparable est donc composé de textes dans des langues différentes, mais partageant une partie du vocabulaire employé, ce qui implique généralement que les textes parlent d'un même sujet, à la même époque et dans un registre comparable. Une sélection d'articles de journaux dans différentes langues, traitant d'une même actualité internationale et à la même époque constitue un bon exemple de corpus comparable.
L'alignement ne peut donc plus s'appuyer sur la structure du texte (qui n'a pas à être identique d'une langue à l'autre) et les approches proposées cherchent plutôt à prendre en compte le contexte de chaque terme à aligner, c'est-à-dire la façon dont ils sont employés et les mots avec lesquels ils concourent dans le texte.
Autres
...