Un corpus
Cours : Un corpus. Recherche parmi 300 000+ dissertationsPar dissertation • 18 Septembre 2013 • Cours • 256 Mots (2 Pages) • 747 Vues
On appelle corpus parallèle un ensemble de couples de textes tel que, pour un couple, un des textes est la traduction de l'autre. Il est intéressant d'aligner ces corpus, c'est-à-dire de faire correspondre chaque unité du texte en langue source avec chaque unité de texte en langue cible (au niveau des paragraphes, phrases et mots) pour disposer d'un jeu de donnée bilingue, en particulier dans des domaines spécialisés où le vocabulaire et l'usage des mots et des expressions évolue rapidement.
À titre d'exemple, au 26 octobre 2006, les versions françaises et anglaise des articles Déclin de l'Empire romain d'Occident et Decline of the Roman Empire sont des textes parallèles. Le texte source est la version anglaise, la version française est la cible, issue de la traduction.
Bien que les textes soient dits parallèles, la traduction engendre des différences structurelles entre les textes. Certaines expressions peuvent-être traduite par un nombre différent de mots. Par exemple « Theories about the decline and fall of the Roman Empire » est composé de 10 mots alors que sa traduction « Théories du déclin de l'Empire romain » n'est composé que de 7 mots. De la même façon, des phrases dans le texte source sont susceptibles d'être regroupées dans la traduction, ou, à l'inverse, scindées. Le parallélisme n'est donc jamais parfait et les méthodes d'alignement doivent en tenir compte.
Les corpus de textes parallèles sont toutefois relativement rares. À titre d'exemple, citons le Hansard canadien, qui est le compte rendu des Débats de la Chambre des communes canadienne, publié en français et en anglais.
...