Le corpus dans la science

Étude de cas : Le corpus dans la science. Recherche parmi 299 000+ dissertations

Par dissertation • 28 Juin 2013 • Étude de cas • 1 053 Mots (5 Pages) • 739 Vues

Page 1 sur 5

Le corpus dans la science[modifier]

Les corpus sont des outils indispensables et précieux en traitement automatique du langage naturel. Ils permettent en effet d'extraire un ensemble d'information utile pour des traitements statistiques.

D'un point de vue informatif, ils permettent d'extraire des tendances et notamment de construire des ensembles de n-grammes.

D'un point de vue méthodologique, ils apportent une objectivité nécessaire à la validation scientifique en traitement automatique du langage naturel. L'information n'est plus empirique, elle est vérifiée par le corpus. Il est donc possible de s'appuyer sur des corpus (à condition qu'ils soient bien formés) pour formuler et vérifier des hypothèses scientifiques.

Corpus bien formé[modifier]

Plusieurs caractéristiques sont à prendre en compte pour la création d'un corpus bien formé :

la taille ;

le langage du corpus ;

le temps couvert par les textes du corpus ;

le registre ;

Taille[modifier]

Le corpus doit évidemment atteindre une taille critique pour permettre des traitements statistiques fiables. Il est impossible d'extraire des informations fiables à partir d'un corpus trop petit (voir Statistique).

Langage[modifier]

Un corpus bien formé doit nécessairement couvrir un seul langage, et une seule déclinaison de ce langage. Il existe par exemple de subtiles différences entre le français de France et le français parlé en Belgique. Il ne sera donc pas possible de tirer des conclusions fiables à partir d'un corpus franco-belge sur le français de France, ni sur le français de Belgique.

Temps couvert par les textes du corpus[modifier]

Le temps joue un rôle important dans l'évolution du langage : le français parlé aujourd'hui ne ressemble pas au français parlé il y a 200 ans ni, de façon plus subtile, au français parlé il y a 10 ans, à cause notamment des néologismes. C'est un phénomène à prendre en compte pour toutes les langues vivantes. Un corpus ne doit donc pas contenir de textes rédigés à des intervalles de temps trop larges, ou il doit les dater (pour un usage par les historiens de la langue ou des concepts).

Registre de langage[modifier]

Il ne faut pas non plus mélanger des registres différents et le scientifique ne peut s'autoriser à extraire des informations d'un corpus destiné à un certain registre en les appliquant à un autre. Un corpus construit à partir de textes scientifiques ne peut être utilisé pour extraire des informations sur les textes vulgarisés, et un corpus mélangeant des textes scientifiques et vulgarisés ne permettra de tirer aucune conclusion sur ces deux registres.

Méthodologie[modifier]

Il serait maladroit d'un point de vue méthodologique d'appliquer des traitements statistiques sur le corpus qui a permis de faire ressortir un classement ou une modélisation du langage.

Lorsque l'on travaille avec des corpus, il convient donc de séparer un corpus initial en deux sous-corpus:

le corpus d'apprentissage, qui sert à retirer un modèle ou un classement à partir d'un nombre suffisant d'information ;

le corpus de test, qui sert à vérifier la qualité de l'apprentissage à partir du corpus d'apprentissage.

Le calibrage des volumes des corpus

...

Télécharger au format txt (6.8 Kb) pdf (88.8 Kb) docx (10.7 Kb)

Voir 4 pages de plus »

Uniquement disponible sur LaDissertation.com

Lire le document complet Enregistrer

Aperçu de la Dissertation

prev next

Signaler un document

Documents relatifs

Méthode de la question portant sur le corpus
- Ecrit du BAC : Méthode de la question portant sur le corpus - Quel est le but de la question portant sur le corpus

3 Pages • 2988 Vues
Aristote - sur La Science
De tout ce que nous venons de dire sur la science elle-même, sort la définition cherchée de la philosophie. Il faut bien qu'elle soit la

2 Pages • 1978 Vues
L'art Est-il Moins nécessaire Que La Science ?
L’art est-il moins nécessaire que la science ? PROBLEME: « le nécessaire », c'est dans un premier sens, ce dont on a besoin, ce dont

4 Pages • 2687 Vues
Objet De La Science économique
3 1 Comment faire de l’histoire de la pensée économique ? 1. L’OBJET DE LA SCIENCE ÉCONOMIQUE La question même de la définition de l’objet

2 Pages • 1666 Vues
Les sciences
La science (latin scientia, « connaissance ») est, d'après le dictionnaire Le Robert, « Ce que l'on sait pour l'avoir appris, ce que l'on tient

3 Pages • 1585 Vues
Science politique
TD 3 : Introduction a la science politique Document 1 NKRUMAH : (21 septembre 1909 à Nkroful, Ghana - 27 avril 1972 à Bucarest, Roumanie) est un homme politique indépendantiste et panafricaniste

5 Pages • 1802 Vues
Comment répondre à une question de corpus
À partir de la question ou de la citation, il convient de souligner les mots importants. Ici « textes littéraires », « formes d’argumentation »,

9 Pages • 1727 Vues
Qu'est Ce Que La Science économique
QU'EST-CE-QUE LA SCIENCE ECONOMIQUE Introduction économie: vient du grec eco = gestion de la maison Cette notion fait référence à différents concepts: rareté: les ressources

9 Pages • 2050 Vues
Pour Ou Contre Une Science Libre ?
Nous vivons dans une société ou tout le monde cherche à tous contrôler. De plus en plus, nous imposons des règles ou des codes de

4 Pages • 1462 Vues
Corpus de textes et photographie sur le thème du sport
Cette synthèse composé de trois textes et d’une photographie a pour thème le sport et pour sujet Le sport, des sports. Le premier texte, est

5 Pages • 4398 Vues