LaDissertation.com - Dissertations, fiches de lectures, exemples du BAC
Recherche

Le concept de linguistique de corpus

Commentaire de texte : Le concept de linguistique de corpus. Recherche parmi 299 000+ dissertations

Par   •  3 Novembre 2014  •  Commentaire de texte  •  234 Mots (1 Pages)  •  898 Vues

La branche de la linguistique qui se préoccupe plus spécifiquement des corpus s'appelle logiquement la linguistique de corpus. Elle est liée au développement des systèmes informatiques, en particulier à la constitution de bases de données textuelles. Depuis 2001, la revue universitaire CORPUS est dédiée à l'objet.

On parle de corpus pour désigner l'aspect normatif de la langue : sa structure et son code en particulier. "Corpus" est généralement opposé à "status" (ou statut), qui correspond aux conditions d'utilisation de la langue. Cette opposition est commune dans l'étude des politiques linguistiques.

Le corpus regroupe un ensemble de textes ayant une visée commune. Un corpus peut être constitué de documents différents (tableau, extrait de texte...) et ces documents divers ont un point en commun. En général c'est le thème qui fait figure de leur ressemblance. Il faut avoir une technique particulière pour le déchiffrer.Les corpus sont des outils indispensables et précieux en traitement automatique du langage naturel. Ils permettent en effet d'extraire un ensemble d'informations utiles pour des traitements statistiques.

D'un point de vue informatif, ils permettent d'extraire des tendances et notamment de construire des ensembles de n-grammes.

D'un point de vue méthodologique, ils apportent une objectivité nécessaire à la validation scientifique en traitement automatique du langage naturel. L'information n'est plus empirique, elle est vérifiée par le corpus. Il est donc possible de s'appuyer sur des corpus (à condition qu'ils soient bien formés) pour formuler et vérifier des hypothèses scientifiques.

...

Uniquement disponible sur LaDissertation.com