Extraction de motifs séquentiels dans les data streams

NIVEAU : DEA INFORMATIQUE

ORGANISME : INRIA Sophia Antipolis

ADRESSE : équipe AxIS, BP 93, 2004 route des Lucioles, 06902 Sophia Antipolis

ENCADREUR : MASSEGLIA, Florent

04 92 38 50 67

florent.masseglia@sophia.inria.fr

Sujet : les techniques de data mining se sont jusqu'ici penchées sur des cas de données souvent figées, stockées en bases de données ou sous forme de fichiers. En fait, dans de nombreux cas, les données sont extrêmement évolutives et les méthodes incrémentales elles même ne sont plus en mesure de fournir des résultats selon les critères de rapidité fixés. On peut citer les données issues de capteurs, le trafic Internet, les transactions financières, les enchères en ligne, les enregistrements d'appels téléphoniques ou encore les logs d'usage de certains sites Web très fréquentés.

Un data stream est une séquence d'items en temps réel, continue et ordonnée. Le traitement des data streams génère une catégorie d'applications émergente et importante ou les données peuvent entrer et sortir de manière dynamique dans des quantités très grandes (potentiellement infinies) qui ne s'adaptent qu'aux algorithmes fonctionnant en une seule passe, mais qui demandent souvent des résultats très rapides (voire même en temps réel). Il peut s'agir de s'adapter en temps réel à des utilisateurs, de détecter des fraudes et de réagir immédiatement, de détecter une attaque pirate sur un site en temps réel, etc.

Les techniques connues de data mining ont déjà fait l'objet de travaux dans le domaine des data streams. Cependant, la détection de motifs séquentiels fréquents (1) n'est que peu abordée en dépit de sa forte adéquation avec la nature du problème (arrivée en séquence des données à traiter).

Le sujet de ce stage consiste donc à étudier et comprendre le contexte des data streams et des techniques de data mining qui leur sont associées. En particulier, des articles sur l'extraction d'itemsets fréquents (2) feront l'objet d'une première étude. Ensuite, les travaux à réaliser porteront sur un algorithme d'extraction de motifs séquentiels dans les data streams. Cet algorithme pourra être le fruit d'une adaptation d'un algorithme existant dans la littérature ou bien un nouveau schéma algorithmique qui prend en compte les caractéristiques des data streams.}

 

Bibliographie

1) http://www-sop.inria.fr/axis/personnel/Florent.Masseglia/isiFinal.ps

2) http://www-sop.inria.fr/axis/personnel/Florent.Masseglia/jin-cikm03.pdf