NIVEAU :
ORGANISME : INRIA Sophia Antipolis
ADRESSE : équipe AxIS,
ENCADREURS : Brigitte Trousse (Sophia Antipolis), Sergiu Chelcea (Sophia
Antipolis), Yves Lechevallier (Rocquencourt).
04 92 38 77 45
Sujet : ce stage se situe dans le domaine de la fouille
de documents. Celle-ci utilise différentes techniques pour
extraire une information structurée dans du
texte libre, regrouper les documents dans des classes existantes ou
émergeantes, afin d'aggréger ou de synthetiser l'information contenue
dans une large collection. Nous nous intéressons plus particuliérement
aux techniques de classification de documents XML : plus
précisement, la classification (clustering) a pour but
d'identifier des
classes non connue à l'avance. Pour celà on s'appuie
traditionnellement sur des modèles statistiques qui manipulent des
ensembles de mots.
Dans ce stage nous adressons principalement une collection de
documents XML de contenu similaire issu par exemple d'interprétations
différentes,
de traductions différentes d'un même texte : cela peut concerner des
transformations XML de textes religieux, philosophiques,
juridiques,
etc.
L'objectif du stage est de faire des propositions méthodologiques et
logicielles pour l'aide à la classification de collections
de documents XML.
Notons que la classification de documents XML est un domaine de
recherche très actif actuellement. Dans ce stage il s'agira de
prendre en compte bien sûr une représentation interne du document
(qui pourra s'appuyer sur le contenu et/ou la structure)
mais aussi une représentation externe du document (état du document,
type d'encre utilisé etc.).
Il s'agit de proposer de nouvelles méthodes de calcul
de distances entre deux documents en s'appuyant sur un document de
référence et de les intégrer dans une extension de la Classification
Ascendante Hiérarchique appelée "2-3 CAH" développée par (Chelcea et al
2004). Ce travail sera fait principalement dans le contexte
du projet
EuropAid Sanskrit (mars 2005-2006) et il pourra éventuellement donner
lieu à d'autres
expérimentations dans le cadre du groupe de travail international
INEX relativement à la collection XML d'articles IEEE Initiative for
the Evaluation of XML retrieval . L'étudiant pourra avoir
des contacts avec Marc Csernel (AxIS Rocquencourt) travaillant sur le
projet EuropAID Sanskrit et aussi avec Anne-Marie Vercoustre sur les
aspects fouille de documents XML.
Le travail comportera les étapes suivantes: