Les Corpus parallèles

Analyse sectorielle : Les Corpus parallèles. Recherche parmi 302 000+ dissertations

Par offf25 • 14 Septembre 2014 • Analyse sectorielle • 735 Mots (3 Pages) • 786 Vues

Page 1 sur 3

Corpus parallèles[modifier | modifier le code]

On appelle corpus parallèle un ensemble de couples de textes tel que, pour un couple, un des textes est la traduction de l'autre. Il est intéressant d'aligner ces corpus, c'est-à-dire de faire correspondre chaque unité du texte en langue source avec chaque unité de texte en langue cible (au niveau des paragraphes, phrases et mots) pour disposer d'un jeu de données bilingues, en particulier dans des domaines spécialisés où le vocabulaire et l'usage des mots et des expressions évoluent rapidement.

À titre d'exemple, au 26 octobre 2006, les versions française et anglaise des articles Déclin de l'Empire romain d'Occident et Decline of the Roman Empire sont des textes parallèles. Le texte source est la version anglaise, la version française est la cible, issue de la traduction.

Bien que les textes soient dits parallèles, la traduction engendre des différences structurelles entre les textes. Certaines expressions peuvent-être traduites par un nombre différent de mots. Par exemple « Theories about the decline and fall of the Roman Empire » est composé de 10 mots alors que sa traduction « Théories du déclin de l'Empire romain » n'est composée que de 7 mots. De la même façon, des phrases dans le texte source sont susceptibles d'être regroupées dans la traduction, ou, à l'inverse, scindées. Le parallélisme n'est donc jamais parfait et les méthodes d'alignement doivent en tenir compte.

Les corpus de textes parallèles sont toutefois relativement rares. À titre d'exemple, citons le Hansard canadien, qui est le compte rendu des Débats de la Chambre des communes canadienne, publié en français et en anglais.

Corpus comparables[modifier | modifier le code]

La linguistique de corpus ayant besoin de jeux de données volumineux pour travailler, les corpus parallèles sont certes très précieux, mais trop rares pour suffire à tous les usages.

Les corpus comparables sont largement plus répandus. Déjean & Gaussier (2002)2 donnent la définition suivante de corpus comparable

« Deux corpus de deux langues l_1 et l_2 sont dits comparables s'il existe une sous-partie non négligeable du vocabulaire du corpus de langue l_1, respectivement l_2, dont la traduction se trouve dans le corpus de langue l_2, respectivement l_1. »

Un corpus comparable est donc composé de textes dans des langues différentes, mais partageant une partie du vocabulaire employé, ce qui implique généralement que les textes parlent d'un même sujet, à la même époque et dans un registre comparable. Une sélection d'articles de journaux dans différentes langues, traitant d'une même actualité internationale et à la même époque constitue un bon exemple de corpus comparable.

L'alignement ne peut donc plus s'appuyer sur la structure du texte (qui n'a pas à être identique d'une langue à l'autre) et les approches proposées cherchent plutôt à prendre en compte le contexte de chaque terme à aligner, c'est-à-dire la façon dont ils sont employés et les mots avec lesquels ils concourent dans le texte.

Autres

...

Télécharger au format txt (5.1 Kb) pdf (78 Kb) docx (10.2 Kb)

Voir 2 pages de plus »

Uniquement disponible sur LaDissertation.com

Lire le document complet Enregistrer

Aperçu de la Dissertation

prev next

Signaler un document

Documents relatifs

Méthode de la question portant sur le corpus
- Ecrit du BAC : Méthode de la question portant sur le corpus - Quel est le but de la question portant sur le corpus

3 Pages • 3175 Vues
Comment répondre à une question de corpus
À partir de la question ou de la citation, il convient de souligner les mots importants. Ici « textes littéraires », « formes d’argumentation »,

9 Pages • 1931 Vues
Corpus de textes et photographie sur le thème du sport
Cette synthèse composé de trois textes et d’une photographie a pour thème le sport et pour sujet Le sport, des sports. Le premier texte, est

5 Pages • 4640 Vues
Devoir Type BAC: corpus composé de 3 Sonnets
1] Question préalable Ce corpus contient trois sonnets. Les deux premier sonnets sont « Le crapaud » et « Un sonnet à la manière de s'en servir » de

8 Pages • 4295 Vues
Corpus: Caligula (Camus), Ruy Blas (Hugo), Le Roi Se Meurt (Ionesco)
Nous allons étudier trois textes présents au sein de ce corpus la scène 4 de l'acte V de Ruy Blas écrit par Victor Hugo en

2 Pages • 4279 Vues
Corpus de texte: Zola, Hugo
Le texte B de Emile Zola, Germinal , lui paraît moins fluctuant, le personnage héroïque est dans une situation lui aussi peu banal, il se

2 Pages • 2192 Vues
Corpus de texte: Ruy Blas (Hugo), Caligula (Camus), le roi se meurt (Ionesco)
jifdu gndsfgs Corpus De Texte Ruy Blas, Caligula , Le Roi Se Meurt Nous allons étudier trois textes présents au sein de ce corpus la

2 Pages • 2299 Vues
Question Sur Corpus - Solitude
Question Sur Corpus ; La Solitude Question sur Corpus, la solitude Ce corpus est composé de trois textes relevant du genre argumentatif. Deux de ces

2 Pages • 4642 Vues
Corpus de textes offrant différentes visions du peuple: Hugo, Flaubert, Zola
Le roman se définit d’abord comme un récit fictionnel. Pourtant a travers cela les auteurs ont comprit qu’un personnage pouvait I. (oui car) l’auteur s’appui

13 Pages • 2310 Vues
Corpus sur trois extraits de Chrétien de Troyes : "Lancelot ou le chevalier à la charette", "Perceval le Gallois" et "Yvain ou le chevalier au lion": Quelles sont les caractéristiques principales de ces héros?
Ce corpus rassemble trois textes extraits de romans de Chrétien de Troyes : "Lancelot ou le chevalier à la charette", "Perceval le Gallois" et "Yvain

2 Pages • 2367 Vues