Identité
Nom : TANDABANY
Prénoms : Sattisvar Siddhanta
Date de naissance : 29 novembre 1982
Lieu de naissance : Vannes (56) FRANCE
Âge : 22 ans
Au sein de l'INRIA
Sujet de stage : Classification de documents XML
Encadrants : Brigitte Trousse (Sophia Antipolis), Sergiu Chelcea (Sophia Antipolis), Yves Lechevallier (Rocquencourt).
Résumé : ce stage se situe dans le domaine de la fouille de documents. Celle-ci utilise différentes techniques pour extraire une information structurée dans du texte libre, regrouper les documents dans des classes existantes ou émergeantes, afin d'aggréger ou de synthetiser l'information contenue dans une large collection. Nous nous intéressons plus particulièrement aux techniques de classification de documents XML : plus précisement, la classification (clustering) a pour but d'identifier des classes non connue à l'avance. Pour cela on s'appuie traditionnellement sur des modèles statistiques qui manipulent des ensembles de mots.