SéSur / ARC Inria

Dans les applications traditionnelles, le processus de fouille était prévu pour fonctionner sur des données stockées et statiques ou peu mises à jour. L'extraction de connaissances pouvait alors prendre des jours, des semaines ou même des mois, mais la nature statique des données ne perturbait pas le déroulement de l'extraction. Dans le cas des flots, on n'observe les données qu'une seule fois. Les caractéristiques des flots de données sont particulièrement contraignantes : données produites en continu et à une très grande vitesse, impossibilité de stocker les données et nécessité de les incorporer au modèle, même si elles ne seront plus rencontrées [10]. En raison du grand nombre d'applications concernées, la fouille des flots de données est devenu un sujet de recherche majeur [1,6]. La fouille de flots de données pose deux défis principaux :

Les opérations traditionnelles de fouille sont inapplicables sur un flot de données. Les flots produisent des données en continu, très rapidement et de façon illimitée. Il est impossible d'utiliser des algorithmes traditionnels qui ont besoin de faire plusieurs passes sur les données. En prenant comme exemple l'extraction d'items ou de séquences fréquents, les principaux verrous à l'adaptation de méthodes traditionnelles sont : i) la technique « générer-élaguer » est inadaptée car l'étape de génération fait appel à des opérateurs de jointure, connus pour être typiquement bloquants car leur calcul nécessite de disposer de l'ensemble des données [3] ii) Les données ne peuvent être observées qu'une seule fois et iii) l'utilisation de la mémoire est limitée même si de nouveaux éléments continuent à être produits [20].
Le traitement exhaustif et exact des flots est impossible. La distribution des données change inévitablement dans le temps et l'utilisateur final est souvent plus intéressé par les changements récents (pour lesquels il veut une précision élevée) que par les changements plus éloignés (où une précision plus faible est satisfaisante) [8]. Par exemple, maintenir les items les plus fréquents est récemment apparu comme étant un problème très intéressant [16,17] pour des applications comme la détection d'intrusion dans les réseaux à fort trafic.

La fouille de flots de données : de nouveaux défis