curité et Surveillance
dans les Flots de Données

 

 

 

 

 

 

 

 

 

Accueil

Contexte

Problématique

Propositions

Applications

Equipes

Positionnement

Bibliographie

 

Réunions et CR

Equipe AxIS
INRIA
Sophia Antipolis

Equipe Dream
IRISA
Rennes

Equipe KDD
LGI2P/EMA
Nîmes

Equipe TATOO
LIRMM
Montpellier

 

Validation des recherches dans différentes applications

Les méthodes qui seront developpées dans le cadre de cette ARC ont pour objectif l'extraction de connaissances dans les flots de données, la gestion de ces connaissances et de leur évolution dans le temps. L'objectif de ce projet est également de privilégier la qualité de ces connaissances et leur pertinence pour des besoins de sécurité. Dans cette optique nous avons l'intention de valider les méthodes qui seront proposées et développées, sur des données issues du monde réel. Toutes les données décrites par la suite seront systématiquement anonymisées pour des besoins de confidentialité.

Données cardiaques : ECG, pression, etc.
En unité de soins intensifs les patients sont ``monitorés'' : un ensemble d'électrodes placées sur diverses parties du corps enregistre les signaux électriques correspondant à l'activité cardiaque (trois électrodes permettent la reconstruction de l'ECG classique sur douze voies) et des catheters enregistrent la pression artérielle en continus. L'ensemble des informations obtenues par ces voies correspond à un flot multidimensionnel. Celui-ci doit être ensuite prétraité par des algorithmes de traitement de signal et être analysé en ligne pour détecter d'éventuels troubles cardiaques.

Les prothèses cardiaques enregistrent de plus en plus d'informations qui peuvent ensuite être utilisées pour évaluer la qualité de l'activité d'un patient et adapter le programme de stimulation en conséquence. Les données ne peuvent être stockées telles quelles et sont agrégées selon des granularités différentes (24 heures ou 30 jours, par exemple). Par ailleurs, la mémoire de ces prothèses est limitée et les données nouvelles écrasent les anciennes. Ces cararactéristiques présentent de nombreuses similarités avec les flots de données : vision partielle des données, nécessité de les résumer, analyse pour les résumer au mieux.

Même si les contraintes en espace mémoire sont bien différentes dans ces deux cas, on retrouve dans ces deux applications les problématiques de fouille de données sur des flots. Partant d'un ensemble de chroniques (qu'on supposera au départ appris hors-ligne), il s'agit d'évaluer en-ligne la qualité de cet ensemble de motifs et de l'adapter afin qu'il corresponde au mieux au patient surveillé et à son état courant, tout en garantissant une qualité de détection.

Données d'une société éditrice de solutions de sécurité sur le Web
Bee Ware est une société éditrice de solutions de sécurité applicative web. L'un des défis de la sécurité applicative est de protéger aussi bien des attaques connues qu'inconnues. C'est à la fois un objectif technologique, rendu nécessaire par la diversité applicative, et une contrainte d'exploitation, afin d'éviter toutes les tâches fastidieuses de mise à jour. Aucune technologie n'a su à ce jour apporter une solution acceptable contre des attaques non référencées. Seul un oeil expert et humain s'avère capable de s'orienter dans la diversité de ce trafic et d'identifier les requêtes suspectes. Il a appris et fonctionne par analogie. C'est un oeil expert à la fois des technologies applicatives et des malversations potentielles qu'elles impliquent. Cette capacité à catégoriser rapidement l'information est l'une des composantes de l'intelligence humaine, la capacité d'apprendre en est une autre. C'est en essayant de reproduire ces capacités que les nouveaux systèmes permettront d'analyser et de classifier le trafic, de détecter et de bloquer toutes les tentatives d'attaques.

Afin de développer son programme de recherche et développement, la société Bee Ware recherche des partenariats lui permettant de tester de nouvelles solutions d'apprentissage. Pour cela elle dispose d'un ensemble de données d'attaques telles que :

  • Fichiers logs de webserver : Logs générés par les utilisateurs accédant à un site WEB. Ceci concerne les utilisateurs normaux ainsi que ceux ayant un comportement anormal. Dans un souci de confidentialité, seule une partie des informations est stockée (pas de données postées, pas de header http, ...).
  • Données simulées : SimFlux est un outil crée par BeeWare. Il est capable de générer des requêtes HTTP randomisées (dans le cadre d'un modèle décrit en XML), d'insérer des attaques dans ces requêtes, de les jouer sur un serveur WEB ou de les écrire dans un format maîtrisé. Cet outil contient un module de génération de flux SOAP et WEBDAV.
  • Pattern d'attaques : Pour l'entraînement et la validation des moteurs de sécurité, nous avons constitué une base d'attaque classifiée. Cette base comprend les grandes classes d'attaques et les variations à l'intérieur de ces classes.
  • Attaques référencées De nombreux sites sur internet recensent les failles découvertes dans les applications (webmail, forum, ...). Malgré l'absence d'unification, de formalisation et de classification il est possibles d'en collecter quelques une et d'obtenir ainsi des signatures d'attaques existantes.
  • Génération : session d'attaques générées par des scanners applicatifs
Entre les outils disponibles en interne et ceux en téléchargement libre sur internet il est possible de rassembler 5 ou 6 scanners de vulnérabilité Web. Ces scanners font en général des attaques variées, peuvent tester des techniques d'évasion, et les plus pertinents effectuent une phase de reconnaissance puis une phase de recherche avant d'effectuer la phase d'attaque.