« Extraction de connaissances pour résumer un flot de données »
Thèse avec financement

Laboratoire d'accueil :
L'équipe AxIS (Inria Sophia Antipolis - Méditerranée) conduit ses travaux de recherche dans le but d'améliorer les systèmes d'information par l'exploitation des données d'usage. L'expertise d'AxIS concerne plus précisément l'extraction de connaissances à partir de données (ECD). La fouille de données (data mining) est une des méthodes employées par AxIS pour traiter les traces d'usage. Les données à traiter étant complexes et dynamiques, AxIS développe de nouveaux outils de fouille pour améliorer les performances des technologies existantes, puis les articule dans des méthodologies structurées et les valide enfin dans des domaines d'application très variés.

Contexte scientifique :
Récemment, le data mining a du s'adapter à un nouveau type de données particulièrement contraignant : les flots de données (ou data streams) [1]. Ces données présentent deux caractéristiques majeures :
1) Elles sont les signes vitaux du système considéré et leur analyse est souvent indispensable.
2) Elles sont produites à une vitesse et dans des quantités telles que la technologie actuelle ne permet pas de les traiter de façon satisfaisante.

Étant donné qu'il est impossible de stocker les données d'un flot, les méthodes de fouille de données sont confrontées à deux défis : extraire des connaissances dans un contexte sur-contraint et gérer l'historique de ces connaissances (sur un espace de stockage limité, il faut faire des choix). La surveillance, les méthodes de sécurité, de monitoring ou simplement de compréhension des usages, dépendent de la bonne gestion des données de ces flots.

Objectif général de la thèse :
L'objectif de cette thèse est de proposer des méthodes de résumé pour les flots de données qui seront basées sur les techniques de data mining (clustering, extraction de motifs fréquents, ...). La gestion de l'historique des connaissances extraites est étroitement liée aux méthodes d'extraction utilisées et sera au centre de cette étude.

Contributions attendues :

De nouveaux algorithmes de data mining dans les flots de données (clustering, extraction de fréquents).
Une nouvelle approche de découpage du flot de données afin d'optimiser la qualité des connaissances extraites (jusqu'ici ce découpage se fait le plus souvent par fenêtres de taille fixe).
Un nouveau modèle de gestion de l'historique des connaissances extraites (qui s'ajoutera aux modèles existants dans la littérature tels que la régression ou les 'tilted time windows' [2] et optimisera le rapport occupation mémoire/précision).

Les nouveaux algorithmes seront intégrés dans la plateforme d'expérimentation FOCUS, qui regroupe un ensemble d'outils développés dans l'équipe et permettra aux chercheurs et industriels intéressés de mieux analyser et de comprendre plus précisément les usages.

Pré-requis :

Master 2 recherche en informatique
Algorithmique et complexité.
Compétences en programmation.
Bonne maitrise de l'Anglais.

Encadrement : Florent Masseglia (CR Inria) et Yves Lechevallier (DR Inria).

Contact : Florent.Masseglia@sophia.inria.fr

Cette thèse s'inscrit dans le projet ANR MIDAS (MIning DAta Streams). L'étudiant travaillera dans le centre Inria de Sophia-Antipolis.

Envoyer un CV détaillé (avec les notes et classements incluant le Master), une lettre de motivation, un ou deux noms de référents et au moins une lettre de recommandation avant le 30 juin.

Liens utiles :

[1] Marascu, A. and Masseglia, F. 2006. Mining sequential patterns from data streams: a centroid approach. J. Intell. Inf. Syst. 27, 3 (Nov. 2006), 291-307.

[2] C. Giannella, Jiawei Han, Jian Pei, Xifeng Yan, and P. S. Yu. Mining Frequent Patterns in Data Streams at Multiple Time Granularities. In Proceedings of the NSF Workshop on Next Generation Data Mining, November 2002.

Site de l'équipe AxIS