NIVEAU : DEA INFORMATIQUE
ORGANISME : INRIA Sophia Antipolis
ADRESSE : equipe AxIS, BP 93, 2004 route des Lucioles, 06902 Sophia Antipolis
ENCADREUR : MASSEGLIA, Florent
04 92 38 50 67
florent.masseglia@sophia.inria.fr
Sujet :
Le "data mining" (ou "fouille de données") est un thème de recherche qui sort de sa période de balbutiements et qui se stabilise de plus en plus. Cependant il ne s'agit que d'une étape d'un processus plus vaste connu sous le nom "d'Extraction de Connaissances dans les Bases de Données" (ECBD). Ce processus est un enchaînement d'étapes qui vont du prétraitement des données jusqu'à l'interprétation des résultats. Les travaux relatifs à l'ECBD se sont jusqu'ici principalement penchés sur la phase de data mining, qui présentait les défis les plus importants à court terme.
Ce point de vue a désormais évolué après avoir constaté que sans une étude poussée du prétraitement, les étapes suivantes se trouvent totalement faussées. En effet l'étape de prétraitement est composée de phases de sélection, nettoyage et transformation des données. Le rôle majeur de cette étape et son influence directe sur la qualité des résultats est donc évident.
Aujourd'hui pour transformer les données à traiter, on passe systématiquement par un traducteur ad-hoc. Après avoir écrit plusieurs de ces traducteurs nous avons constaté qu'un grand nombre d'opérations pouvaient être factorisées pour tous les traducteurs.
Ce travail peut donner lieu à un travail de thèse.
Objectifs :
Le sujet de ce stage est donc le suivant : permettre la génération automatique de traducteurs, en prenant en compte la structure des données à analyser. Cela implique de travailler en deux phases :
1. Découvrir la structure des données à analyser\\
2. Proposer une traduction basée sur cette découverte\\
De plus, pour proposer un domaine
d'étude exploratoire, les travaux demandés
seront menés uniquement sur des données de type Log.
En fonction de l'avancement des travaux réalisés au
cours de ce stage, d'autres types
de données pourront être envisagés.