curité et Surveillance
dans les
flots de données


Ce site présente un "auto-bilan" de l'ARC SéSur. Vous pouvez retrouver ici le site complet de l'ARC pendant la période 2007-2008. Le texte fondateur est ici.


Résumé de la proposition SéSurBilan administratif et financierBilan scientifique

Résumé de la proposition d'ARC SéSur

L'ARC SéSur a été proposée pour répondre aux défis posés par les flots de données dans les domaines de l'extraction de connaissances et de la sécurité.

Les partenaires :

- L'équipe AxIS de l'Inria Sophia-Antipolis Méditérranée
- L'équipe Dream de l'IRISA
- L'équipe TATOO du LIRMM
- L'équipe KDD du LGI2P


Les flots de données (ou Data Streams) :

Ces données présentent deux caractéristiques majeures :
  1. Elles sont les signes vitaux du système considéré et leur analyse est dans la plupart des cas une nécessité première.
  2. Elles sont produites à une vitesse et dans des quantités telles que les technologies (au moment de la proposition) ne permettent pas de les traiter de façon satisfaisante.
Traiter les flots de données demande donc de :
  1. Sacrifier l'exactitude des résultats au profit de performances indispensables.
  2. Adapter les modèles obtenus en fonction de l'évolution du contenu du flot.

La sécurité :

Les données produites par les systèmes générateurs de flots sont souvent le "pouls'' de ces systèmes. S'assurer d'une analyse sûre et réactive de ces données permet de garantir le bon fonctionnement du système. Il peut s'agir de détecter des fraudes et réagir immédiatement, de détecter une attaque pirate sur un site en temps réel ou encore de détecter une arythmie cardiaque sur les données d'un électrocardiogramme.

Les système de sécurité comme les IDS (Intrusion Detection Systems) par exemple, peuvent utiliser deux modèles :
  1. Détection de signatures (on a une liste d'événements dangereux et on veut les détecter). Ces systèmes génèrent peu de fausses alarmes mais souffrent de mauvais taux de détection (en particulier les nouvelles attaques, qui ne sont pas encore listées).
  2. Détection d'anomalies. Dans ce cas, on veut vérifier tout ce qui sort de l'ordinaire. Le taux de détection est très bon, mais les fausses alarmes deviennent ingérables pour l'utilisateur final. 
Dans cette ARC, nous avons adopté le point de vue de la détection d'anomalie, qui est le point de croisement entre la fouille de données, la sécurité et les flots de données.

Nos objectifs dans cette ARC :

  1. Proposer de nouvelles techniques d'extraction de connaissances adaptées aux flots de données :
    • Développer des algorithmes de fouille adaptés aux flots de données.
    • Améliorer la précision des connaissances acquises par la prise en compte de la complexité des données.
  2. Faire évoluer les connaissances apprises au fil du temps :
    • Disponibilité des connaissances apprises pour le diagnostic.
    • Utiliser l'évolution pour filtrer les fausses alarmes.
  3. Appliquer nos travaux sur des données réelles dans un contexte sécuritaire.