Extraction de motifs dans les flots de données
Workplace: Sophia-Antipolis
Job category: Post-doctoral Fellow
Research theme: Cognitive systems
Research project-team: AXIS
Environment: Ce recrutement de post-doctorant se fera dans
le cadre de l'ARC Inria "SéSur" (Sécurité
et Surveillance dans les flots de données). L'objectif de
l'ARC SéSur est de proposer des solutions pour sécuriser,
surveiller et diagnostiquer les systèmes producteurs de
données connues sous le nom de ``flots de données'' ou
`` data streams''. Ces données présentent deux
caractéristiques majeures :
1) elles sont les signes
vitaux du système considéré et leur analyse est
dans la plupart des cas une nécessité première
et
2) elles sont produites à une vitesse et dans des
quantités telles que la technologie actuelle ne permet pas de
les traiter de façon satisfaisante.
Nous nous intéressons
particulièrement à la surveillance de systèmes
produisant des flots de données. La surveillance consiste dans
ce cas à détecter dans ce flot de données des
motifs caractéristiques du bon ou du mauvais fonctionnement du
système.
Le cadre général des flots de
données impose d'extraire et de détecter simultanément
et ``à la volée'' les motifs synoymes de
dysfonctionnement.
Les travaux existants dans ce domaine peuvent
être divisés en deux catégories :
- Ceux qui
tentent de détecter des comportements connus pour être
suspects (approche supervisée). Il s'agit alors de faire de la
reconnaissance des motifs connus parmi les nouvelles données.
La difficulté réside dans la rapidité de
l'algorithme de reconnaissance utilisé. L'avantage se situe
dans le faible nombre de faux positifs (peu de fausses alarmes). En
effet, une alarme ne sera déclenchée que lors de la
détection d'un motif connu pour être anormal.
L'inconvénient étant le manque d'adaptation aux
nouveaux comportements anormaux (qui ne sont, par définition,
pas connus).
- Ceux qui tentent de détecter des
comportements anormaux sans bases de connaissance préalable
(approche non supervisée). Il s'agit alors de trouver à
la volée les motifs anormaux, selon des critères à
déterminer (fréquence, augmentation rapide, etc.). La
difficulté réside alors dans la mise au point de
critères pour déterminer le niveau d'anormalité
d'un comportement. L'avantage se situe dans la capacité à
détecter tout type de comportement suspect, y compris les
nouveaux (nouvelles attaques par exemple). L'inconvénient
étant le nombre de fausses alarmes déclenchées
(tout motif qui est inconnu du système n'est pas forcément
anormal...).
Mission: Le but de ce sujet sera de proposer des solutions à la détection de motifs anormaux à la volée (de manière non supervisée) dans un flot de données. Pour cela, il faudra dans un premier temps établir une représentation du flot et de son historique. Cette représentation permettra de connaître l'état "normal" du flot. Dans un deuxième temps, il faudra proposer un algorithme qui sera capable, pour chaque comportement du flot, de le comparer à l'état normal du flot. Pour cela, les techniques de reconnaissance de motifs issues des méthodes supervisées seront sollicitées.
Les compétences des partenaires impliqués dans cette ARC (AxIS/Sophia-Antipolis et DREAM/Irisa) seront une base utile dans l'élaboration d'un algorithme de surveillance du flot. Dans un premier temps, le jeune chercheur devra analyser les algorithmes de fouille de flots de données proposés dans la littérature et retenir ceux qui lui paraissent les plus adaptables aux objectifs du projet. En particulier, il proposera un algorithme capable de détecter les motifs ayant les supports les plus faibles dans un flot de données. Il s'agit en effet des motifs qui correspondent à un fonctionnement normal du flot. Ensuite, il devra s'inspirer des méthodes existantes de reconnaissance de motifs (requêtage) pour propose une gestion de l'historique des motifs rencontrés dans le flot. Enfin il proposera un algorithme de détection des comportements suspects, basés sur une détection du changement dans le flot afin de déclencher un minimum de fausses alarmes et un maximum de vraies alarmes.
Contacts : Florent Masseglia
(Florent.Masseglia@sophia.inria.fr) et Brigitte Trousse
(Brigitte.Trousse@sophia.inria.fr)
Skills and profile: Le candidat devra avoir des
connaissances solides en apprentissage et fouille de données.
Une expérience dans le domaine des flots de données
constituera un avantage.
Durée du contrat : 1 an