« Extraction
de connaissances pour résumer un flot de données »
Thèse
avec financement
Laboratoire
d'accueil :
L'équipe
AxIS (Inria Sophia Antipolis - Méditerranée) conduit
ses travaux de recherche dans le but d'améliorer les systèmes
d'information par l'exploitation des données d'usage.
L'expertise d'AxIS concerne plus
précisément l'extraction de connaissances à
partir de données (ECD). La
fouille de données (data mining) est une des méthodes
employées par AxIS pour
traiter les traces d'usage. Les données à traiter étant
complexes et dynamiques, AxIS développe de nouveaux outils de
fouille pour améliorer les performances des technologies
existantes, puis les articule dans des méthodologies
structurées et les valide enfin dans des domaines
d'application très variés.
Contexte
scientifique :
Récemment,
le data mining a du s'adapter à un nouveau type de données
particulièrement contraignant : les flots de données
(ou data streams) [1]. Ces
données présentent deux caractéristiques
majeures :
1)
Elles sont les signes vitaux du système considéré
et leur analyse est souvent indispensable.
2)
Elles sont produites à une vitesse et dans des quantités
telles que la technologie actuelle ne permet pas de les traiter de
façon satisfaisante.
Étant donné qu'il est impossible de stocker les données d'un flot, les méthodes de fouille de données sont confrontées à deux défis : extraire des connaissances dans un contexte sur-contraint et gérer l'historique de ces connaissances (sur un espace de stockage limité, il faut faire des choix). La surveillance, les méthodes de sécurité, de monitoring ou simplement de compréhension des usages, dépendent de la bonne gestion des données de ces flots.
Objectif
général de la thèse :
L'objectif
de cette thèse est de proposer des méthodes de résumé
pour les flots de données qui seront basées sur les
techniques de data mining (clustering, extraction de motifs
fréquents, ...). La gestion de l'historique des connaissances
extraites est étroitement liée aux méthodes
d'extraction utilisées et sera au centre de cette étude.
Contributions attendues :
De nouveaux algorithmes de data mining dans les flots de données (clustering, extraction de fréquents).
Une nouvelle approche de découpage du flot de données afin d'optimiser la qualité des connaissances extraites (jusqu'ici ce découpage se fait le plus souvent par fenêtres de taille fixe).
Un nouveau modèle de gestion de l'historique des connaissances extraites (qui s'ajoutera aux modèles existants dans la littérature tels que la régression ou les 'tilted time windows' [2] et optimisera le rapport occupation mémoire/précision).
Les nouveaux algorithmes seront intégrés dans la plateforme d'expérimentation FOCUS, qui regroupe un ensemble d'outils développés dans l'équipe et permettra aux chercheurs et industriels intéressés de mieux analyser et de comprendre plus précisément les usages.
Pré-requis :
Master 2 recherche en informatique
Algorithmique et complexité.
Compétences en programmation.
Bonne maitrise de l'Anglais.
Encadrement : Florent Masseglia (CR Inria) et Yves Lechevallier (DR Inria).
Contact : Florent.Masseglia@sophia.inria.fr
Cette thèse s'inscrit dans le projet ANR MIDAS (MIning DAta Streams). L'étudiant travaillera dans le centre Inria de Sophia-Antipolis.
Envoyer un CV détaillé (avec les notes et classements incluant le Master), une lettre de motivation, un ou deux noms de référents et au moins une lettre de recommandation avant le 30 juin.
Liens utiles :
[1] Marascu, A. and Masseglia, F. 2006. Mining sequential patterns from data streams: a centroid approach. J. Intell. Inf. Syst. 27, 3 (Nov. 2006), 291-307.
[2] C. Giannella, Jiawei Han, Jian Pei, Xifeng Yan, and P. S. Yu. Mining Frequent Patterns in Data Streams at Multiple Time Granularities. In Proceedings of the NSF Workshop on Next Generation Data Mining, November 2002.