Améliorer la qualite des resultats d'un processus d'extraction de connaissances par le prétraitement : les solutions à apporter en amont

NIVEAU : DEA INFORMATIQUE

ORGANISME : INRIA Sophia Antipolis

ADRESSE : equipe AxIS, BP 93, 2004 route des Lucioles, 06902 Sophia Antipolis

ENCADREUR : MASSEGLIA, Florent
04 92 38 50 67
florent.masseglia@sophia.inria.fr

Sujet :

Le "data mining" (ou "fouille de données") est  un  thème  de  recherche qui sort de sa période de balbutiements et  qui  se  stabilise  de  plus  en plus. Cependant il ne s'agit que  d'une  étape  d'un  processus  plus  vaste connu sous le  nom  "d'Extraction  de  Connaissances  dans  les  Bases  de Données" (ECBD). Ce processus est un enchaînement d'étapes qui vont  du prétraitement  des  données  jusqu'à  l'interprétation  des  résultats.  Les travaux relatifs à l'ECBD se sont jusqu'ici principalement  penchés  sur  la phase de data mining, qui présentait les défis les plus importants  à  court terme.

Ce point de vue a désormais évolué après avoir constaté que sans  une  étude poussée du  prétraitement,  les  étapes  suivantes  se  trouvent  totalement faussées. En effet l'étape  de  prétraitement  est  composée  de  phases  de sélection, nettoyage et transformation des données. Le rôle majeur de  cette étape et son influence  directe  sur  la  qualité  des  résultats  est  donc évident.

Aujourd'hui   pour   transformer   les   données   à   traiter,   on   passe systématiquement par un traducteur ad-hoc. Après avoir  écrit  plusieurs  de ces  traducteurs  nous  avons  constaté  qu'un  grand  nombre   d'opérations pouvaient être factorisées pour tous les traducteurs.

Ce travail peut donner lieu à un travail de thèse.

Objectifs :

Le sujet de  ce  stage  est  donc  le  suivant  :  permettre  la  génération automatique de traducteurs, en prenant en compte la structure des données  à analyser. Cela implique de travailler en deux phases :

 1. Découvrir la structure des données à analyser\\
 2. Proposer une traduction basée sur cette découverte\\

De  plus,  pour  proposer  un  domaine  d'étude  exploratoire,  les  travaux demandés seront menés uniquement sur des données de type  Log.  En  fonction de l'avancement des travaux réalisés au cours de ce  stage,  d'autres  types
de données pourront être envisagés.