LaDissertation.com - Dissertations, fiches de lectures, exemples du BAC
Recherche

Annotation Et Indexation Des Flux RSS Par Des Relations Discursives De Citation Et De Rencontre : Le Système FluxExcom

Compte Rendu : Annotation Et Indexation Des Flux RSS Par Des Relations Discursives De Citation Et De Rencontre : Le Système FluxExcom. Recherche parmi 300 000+ dissertations

Par   •  3 Novembre 2014  •  805 Mots (4 Pages)  •  871 Vues

Page 1 sur 4

Les approches utilisées dans les systèmes de recherche d'information traditionnels utilisent

des modèles basés sur la notion de terme linguistique. Depuis quelques années, des efforts

importants sont déployés pour étendre la notion de terme avec des informations

morphologiques et syntaxiques (Cunningham, 2002). Le web sémantique s'intéresse aux

organisations entre concepts qu'il organise comme des méta-données des documents afin de

proposer de nouveaux services aux utilisateurs (Berners-Lee, 2001). Plusieurs recherches se

sont déjà intéressées aux contenus des articles de journaux pour en extraire les entités

nommées comme le nom de personnes, des organisations et des lieux (Conférences MUC).

Plus récemment, des chercheurs s'intéressent aux flux RSS de grands journaux comme Le

Monde, Le Figaro ou Libération pour en extraire des groupes nominaux et verbaux par des

outils de TAL comme TreeTagger et Syntex (LexiMédia2007 du laboratoire IRIT - Toulouse

- France).

Notre proposition s'intéresse aux relations discursives de citation et de rencontre véhiculées

par les articles de journaux accessibles via les flux RSS. Cette approche est articulée d’une

part, autour de la notion de « point de vue sémantique et discursif » et d’autre part, autour de

la notion de « segment textuel annoté » à l’aide de marqueurs linguistiques liés explicitement

à l’expression de la notion du point de vue de fouille adopté. L'analyse linguistique met en

oeuvre une technique linguistique et computationnelle d’Exploration du Contexte, développée

au laboratoire LaLIC, qui est plus complexe que l’identification de motifs réguliers (Desclés,

1991, 1997, 2006). Dans le papier, nous présentons l’interaction entre les informations

sémantiques avec une opération d’indexation de segments textuels à travers la réalisation

d’une architecture informatique de traitement de flux RSS qui résulte d’un couplage d’une

machine d’annotation de segments textuels et d’une seconde machine d’indexation. Nous

nous intéressons plus particulièrement aux notions discursives de citation (Mourad, 2001),

(Alrahabi, 2006) et de connexion entre personnes – rencontre – (Djioua et ali., 2006).

FluxExcom analyse en permanence les articles des journaux Le Monde, Libération et Le

Figaro issus des flux mis en ligne et extrait automatiquement les segments textuels portant les

relations discursives de citation et de rencontre.

(i) José Bové doit annoncer sa candidature à l'élection présidentielle, jeudi 1er février, à la bourse du

travail de Saint-Denis."Je veux donner le choix à tout le monde de voter. Tous ceux qui ne se

reconnaissent pas dans le duel Ségolène Royal-Nicolas Sarkozy doivent pouvoir s'exprimer", déclare le

leader altermondialiste dans Le Parisien de jeudi. (Lemonde.fr – 31/01/2007)

(ii) Ségolène Royal a dîné lundi soir avec Lilian Thuram. …«Je ne vais pas dire pour qui voter ou ne

pas voter. Ce n'est pas un problème de droite ou de gauche, mais un problème de vivre

ensemble», confie à Libération Lilian Thuram, qui,

...

Télécharger au format  txt (6.1 Kb)   pdf (82.8 Kb)   docx (11 Kb)  
Voir 3 pages de plus »
Uniquement disponible sur LaDissertation.com