Classification de documents semi-structurés à l'aide de motifs séquentiels


NIVEAU : INGENIEUR INFORMATIQUE

ORGANISME : INRIA Sophia Antipolis

ADRESSE : équipe AxIS, BP 93, 2004 route des Lucioles, 06902 Sophia Antipolis

ENCADREUR : MASSEGLIA, Florent et TROUSSE Brigitte

04 92 38 50 67


Dans la continuation de nos travaux sur l’extraction de structure dans un ensemble de données semi-structurées [1], nous envisageons de travailler sur la catégorisation de documents a l’aide des techniques d’extraction de motifs séquentiels [2]. Cette catégorisation pourra se baser sur la découverte de structures dans divers types de documents, sur le contenu des documents analysés ou ces deux facteurs simultanément. A court terme, notre objectif est de prendre en compte des formats de données comme les documents HTML ou XML. C’est dans ce contexte que s’inscrivent les travaux à réaliser dans ce stage. Dans un deuxième temps, en fonction de l’avancement des travaux du stagiaire, les fichiers propriétaires (log d’un système d’information, données générées par des capteurs, etc.) ou d’autres documents issus du Web pourront être étudiés.

Si des travaux existent pour analyser la structure d’un document (avec par exemple l’inférence grammaticale, ou des algorithmes d’extraction) peu se sont consacrés à l’analyse d’un ensemble de documents pour en extraire une structure commune avec un support minimum à partir de motifs séquentiels. Notre approche consistera de plus à utiliser ces structures pour proposer une classification des documents en fonction de leur organisation interne. Dans [3] nous avons en effet proposé une méthode de classification des utilisateurs d’un site Web en fonction de leurs navigations à partir des motifs séquentiels extraits sur le log. Une technique similaire doit être étudiée pour proposer une classification des documents en fonction de leur structure.

Les travaux envisagés prendront place dans une grande collection de documents. Nous avons identifié la collection de documents issus d’INEX (INitiative for the Evaluation of XML Retrieval, http://inex.is.informatik.uni-duisburg.de:2004/index.html) qui totalise 12.107 articles venus de journaux labellisés  « IEEE Computer Society ».



[1] C. Garboni. Amélioration des résultats d'un processus d'extraction de connaissances : les solutions à apporter en amont. Master's thesis, UNSA - Université de Nice Sophia-Antipolis, Sophia Antipolis, France, July 2004.


[2] Srikant, R., & Agrawal, R. (1996). Mining sequential patterns: Generalizations and performance improvements, Proc. of the Fifth Int'l Conference on Extending Database Technology (EDBT). Avignon, France.


[3] Florent Masseglia, D. Tanasa, Brigitte Trousse. Web Usage Mining: Sequential Pattern Extraction with a Very Low Support. APWeb 2004: 513-522. 6th Asia-Pacific Web Conference, APWeb 2004, Hangzhou, China, April, 2004