Classification de documents XML

NIVEAU :

ORGANISME : INRIA Sophia Antipolis

ADRESSE : équipe AxIS,

ENCADREURS : Brigitte Trousse (Sophia Antipolis), Sergiu Chelcea (Sophia Antipolis), Yves Lechevallier (Rocquencourt).

04 92 38 77 45

Brigitte.Trousse@inria.fr

Sujet : ce stage se situe dans le domaine de  la fouille de documents. Celle-ci utilise différentes techniques pour  extraire une information structurée dans du texte libre, regrouper les documents dans des classes existantes ou émergeantes, afin d'aggréger ou de synthetiser l'information contenue dans une large collection. Nous nous intéressons plus particuliérement aux techniques de classification de documents XML : plus précisement,  la classification (clustering) a pour but d'identifier des classes non connue à l'avance. Pour celà on s'appuie traditionnellement sur des modèles statistiques qui manipulent des ensembles de mots.

Dans ce stage nous adressons principalement une collection de  documents XML de contenu similaire issu par exemple d'interprétations différentes, de traductions différentes d'un même texte : cela peut concerner des transformations XML de textes religieux, philosophiques,  juridiques, etc.
L'objectif du stage est de faire des propositions méthodologiques et logicielles pour l'aide à la classification de collections de documents XML.  Notons que la classification de documents XML est un domaine de recherche très actif actuellement. Dans ce stage il s'agira  de prendre en compte bien sûr une représentation interne du  document (qui pourra s'appuyer sur le contenu et/ou la  structure)  mais aussi une représentation externe du document (état du document, type d'encre utilisé etc.).  

Il s'agit de proposer de  nouvelles méthodes  de  calcul de distances entre deux documents en s'appuyant sur un document de référence et de les intégrer dans une extension de la Classification Ascendante Hiérarchique appelée "2-3 CAH" développée par (Chelcea et al 2004).  Ce travail sera fait  principalement dans le contexte du projet EuropAid Sanskrit (mars 2005-2006) et il pourra éventuellement donner lieu à d'autres expérimentations dans le cadre du  groupe de travail international INEX relativement à la collection XML d'articles IEEE Initiative for the Evaluation of XML retrieval .  L'étudiant pourra avoir des contacts avec Marc Csernel (AxIS Rocquencourt) travaillant sur le projet EuropAID Sanskrit et aussi avec Anne-Marie Vercoustre sur les aspects fouille de documents XML.

Le travail comportera les étapes suivantes:

Bibliographie