Positionnement
Il n'existe pas à l'heure actuelle (et à notre connaissance) de projet en France abordant cette thématique, en dépit des enjeux qui lui sont associés. Les systèmes producteurs de flots de données sont en effet de plus en plus nombreux et les techniques permettant de les sécuriser et de les surveiller sont encore à développer, ce qui est l'objectif de cette ARC. Les quelques travaux existant en France sont issus de la communauté bases de données et portent sur l'aspect gestion des données et réponse aux requêtes. La principale originalité de notre proposition est de se focaliser sur l'aspect extraction de motifs temporels à partir des flots de données, ces motifs étant ensuite utilisés dans le cadre de la surveillance en ligne des systèmes producteurs. Les méthodes de fouille de données et d'apprentissage développées dans chacun des projets concernés par cette ARC sont à ce jour confrontées à des problématiques nouvelles face aux flots de données. Les méthodes développées par AxIS, le LGI2P ou le LIRMM, doivent en effet être étendues à de longues séquences comme le sont les données d'ECG ou les logs d'opérateurs téléphoniques qu'exploite le projet DREAM. D'un autre côté, le projet DREAM possède une expertise en matière d'extraction de chroniques pertinentes, mais les méthodes développées dans ce contexte sont jusqu'ici étudiées pour des cas de données statiques. Le passage au contexte des flots de données demandera donc un travail commun de tous les partenaires afin de converger vers des méthodes à la fois réalistes, permettant l'extraction de connaissances pertinentes et utiles, et afin également de valider nos travaux dans un contexte applicatif réel.
Au niveau international, la problématique de l'analyse des flots de données est de plus en plus abordée comme en témoigne les nombreux workshops ou sessions organisés sur ce thème par des conférences prestigieuses (KDD, SIGMOD, VLDB, PKDD, ICDM, SAC). Il existe également de nouveaux projets qui s'intéressent soit à l'extraction soit à la détection dans les flots de données. Le projet le plus proche de nos problématiques est MAIDS (Mining Alarming Incidents in Data Streams) de l'Université Illinois Urbana-Champaign (http://maids.ncsa.uiuc.edu/about/index.html) qui a été initié en 2003 et considère l'analyse des flots de données à des fins de détection. Même si les objectifs restent les mêmes, SÉSUR diffère de Maids sur un certain nombre d'aspects. En particulier, nous souhaitons faire collaborer les approches d'extraction de motifs et de chroniques. En proposant ces deux types d'approches nous sommes alors à même de répondre à deux grandes catégories d'applications : celles qui considèrent une séquence longue et continue (e.g. électrocardiogramme, supervision) et celles qui considèrent un ensemble de longues séquences (e.g. site Web). Un autre point est l'aspect évolution des connaissances qui n'est jusqu'à présent pas abordé alors que les conséquences sur des applications réelles sont nombreuses.
|