Annotation Et Indexation Des Flux RSS Par Des Relations Discursives De Citation Et De Rencontre : Le Système FluxExcom
Compte Rendu : Annotation Et Indexation Des Flux RSS Par Des Relations Discursives De Citation Et De Rencontre : Le Système FluxExcom. Recherche parmi 300 000+ dissertationsPar sdjioua • 3 Novembre 2014 • 805 Mots (4 Pages) • 871 Vues
Les approches utilisées dans les systèmes de recherche d'information traditionnels utilisent
des modèles basés sur la notion de terme linguistique. Depuis quelques années, des efforts
importants sont déployés pour étendre la notion de terme avec des informations
morphologiques et syntaxiques (Cunningham, 2002). Le web sémantique s'intéresse aux
organisations entre concepts qu'il organise comme des méta-données des documents afin de
proposer de nouveaux services aux utilisateurs (Berners-Lee, 2001). Plusieurs recherches se
sont déjà intéressées aux contenus des articles de journaux pour en extraire les entités
nommées comme le nom de personnes, des organisations et des lieux (Conférences MUC).
Plus récemment, des chercheurs s'intéressent aux flux RSS de grands journaux comme Le
Monde, Le Figaro ou Libération pour en extraire des groupes nominaux et verbaux par des
outils de TAL comme TreeTagger et Syntex (LexiMédia2007 du laboratoire IRIT - Toulouse
- France).
Notre proposition s'intéresse aux relations discursives de citation et de rencontre véhiculées
par les articles de journaux accessibles via les flux RSS. Cette approche est articulée d’une
part, autour de la notion de « point de vue sémantique et discursif » et d’autre part, autour de
la notion de « segment textuel annoté » à l’aide de marqueurs linguistiques liés explicitement
à l’expression de la notion du point de vue de fouille adopté. L'analyse linguistique met en
oeuvre une technique linguistique et computationnelle d’Exploration du Contexte, développée
au laboratoire LaLIC, qui est plus complexe que l’identification de motifs réguliers (Desclés,
1991, 1997, 2006). Dans le papier, nous présentons l’interaction entre les informations
sémantiques avec une opération d’indexation de segments textuels à travers la réalisation
d’une architecture informatique de traitement de flux RSS qui résulte d’un couplage d’une
machine d’annotation de segments textuels et d’une seconde machine d’indexation. Nous
nous intéressons plus particulièrement aux notions discursives de citation (Mourad, 2001),
(Alrahabi, 2006) et de connexion entre personnes – rencontre – (Djioua et ali., 2006).
FluxExcom analyse en permanence les articles des journaux Le Monde, Libération et Le
Figaro issus des flux mis en ligne et extrait automatiquement les segments textuels portant les
relations discursives de citation et de rencontre.
(i) José Bové doit annoncer sa candidature à l'élection présidentielle, jeudi 1er février, à la bourse du
travail de Saint-Denis."Je veux donner le choix à tout le monde de voter. Tous ceux qui ne se
reconnaissent pas dans le duel Ségolène Royal-Nicolas Sarkozy doivent pouvoir s'exprimer", déclare le
leader altermondialiste dans Le Parisien de jeudi. (Lemonde.fr – 31/01/2007)
(ii) Ségolène Royal a dîné lundi soir avec Lilian Thuram. …«Je ne vais pas dire pour qui voter ou ne
pas voter. Ce n'est pas un problème de droite ou de gauche, mais un problème de vivre
ensemble», confie à Libération Lilian Thuram, qui,
...