Extraction de motifs dans les flots de données

Workplace: Sophia-Antipolis

Job category: Post-doctoral Fellow

Research theme: Cognitive systems

Research project-team: AXIS

Environment: Ce recrutement de post-doctorant se fera dans le cadre de l'ARC Inria "SéSur" (Sécurité et Surveillance dans les flots de données). L'objectif de l'ARC SéSur est de proposer des solutions pour sécuriser, surveiller et diagnostiquer les systèmes producteurs de données connues sous le nom de ``flots de données'' ou `` data streams''. Ces données présentent deux caractéristiques majeures :
1) elles sont les signes vitaux du système considéré et leur analyse est dans la plupart des cas une nécessité première et
2) elles sont produites à une vitesse et dans des quantités telles que la technologie actuelle ne permet pas de les traiter de façon satisfaisante.
Nous nous intéressons particulièrement à la surveillance de systèmes produisant des flots de données. La surveillance consiste dans ce cas à détecter dans ce flot de données des motifs caractéristiques du bon ou du mauvais fonctionnement du système.
Le cadre général des flots de données impose d'extraire et de détecter simultanément et ``à la volée'' les motifs synoymes de dysfonctionnement.
Les travaux existants dans ce domaine peuvent être divisés en deux catégories :
- Ceux qui tentent de détecter des comportements connus pour être suspects (approche supervisée). Il s'agit alors de faire de la reconnaissance des motifs connus parmi les nouvelles données. La difficulté réside dans la rapidité de l'algorithme de reconnaissance utilisé. L'avantage se situe dans le faible nombre de faux positifs (peu de fausses alarmes). En effet, une alarme ne sera déclenchée que lors de la détection d'un motif connu pour être anormal. L'inconvénient étant le manque d'adaptation aux nouveaux comportements anormaux (qui ne sont, par définition, pas connus).
- Ceux qui tentent de détecter des comportements anormaux sans bases de connaissance préalable (approche non supervisée). Il s'agit alors de trouver à la volée les motifs anormaux, selon des critères à déterminer (fréquence, augmentation rapide, etc.). La difficulté réside alors dans la mise au point de critères pour déterminer le niveau d'anormalité d'un comportement. L'avantage se situe dans la capacité à détecter tout type de comportement suspect, y compris les nouveaux (nouvelles attaques par exemple). L'inconvénient étant le nombre de fausses alarmes déclenchées (tout motif qui est inconnu du système n'est pas forcément anormal...).

Mission: Le but de ce sujet sera de proposer des solutions à la détection de motifs anormaux à la volée (de manière non supervisée) dans un flot de données. Pour cela, il faudra dans un premier temps établir une représentation du flot et de son historique. Cette représentation permettra de connaître l'état "normal" du flot. Dans un deuxième temps, il faudra proposer un algorithme qui sera capable, pour chaque comportement du flot, de le comparer à l'état normal du flot. Pour cela, les techniques de reconnaissance de motifs issues des méthodes supervisées seront sollicitées.

Les compétences des partenaires impliqués dans cette ARC (AxIS/Sophia-Antipolis et DREAM/Irisa) seront une base utile dans l'élaboration d'un algorithme de surveillance du flot. Dans un premier temps, le jeune chercheur devra analyser les algorithmes de fouille de flots de données proposés dans la littérature et retenir ceux qui lui paraissent les plus adaptables aux objectifs du projet. En particulier, il proposera un algorithme capable de détecter les motifs ayant les supports les plus faibles dans un flot de données. Il s'agit en effet des motifs qui correspondent à un fonctionnement normal du flot. Ensuite, il devra s'inspirer des méthodes existantes de reconnaissance de motifs (requêtage) pour propose une gestion de l'historique des motifs rencontrés dans le flot. Enfin il proposera un algorithme de détection des comportements suspects, basés sur une détection du changement dans le flot afin de déclencher un minimum de fausses alarmes et un maximum de vraies alarmes.

Contacts : Florent Masseglia (Florent.Masseglia@sophia.inria.fr) et Brigitte Trousse (Brigitte.Trousse@sophia.inria.fr)

Skills and profile: Le candidat devra avoir des connaissances solides en apprentissage et fouille de données. Une expérience dans le domaine des flots de données constituera un avantage.

Durée du contrat : 1 an