Contexte et motivations
La production rapide et massive de données sous la forme de flots s'est récemment révélée être une source de sujets de recherche majeurs. Ce phénomène de production, qui concerne un nombre grandissant de sources de données, se retrouve sous le nom de « flots de données » (ou « data streams »). Les flots de données peuvent être issus des données d'opérateurs téléphoniques, de la surveillance de patients dans les hôpitaux, de réseaux de capteurs (par exemple de consommation d'énergie électrique), des journaux d'usage de certains sites Web très fréquentés, du trafic IP, des transactions financières, des enchères en ligne, de procédés industriels ou encore du trafic routier urbain, etc.
Les flots de données nous confrontent à deux défis principaux :
- Comment représenter un flot de manière fidèle sans le stocker exhaustivement ?
-
-
Comment extraire de la connaissance depuis un flot, sans le bloquer par des opérations coûteuses ?
Les deux questions sont fortement liées. D'un côté, les connaissances (motifs) extraites à partir d'un flot peuvent être une base de travail pour résumer ou représenter ce flot. D'un autre côté, le résumé d'un flot peut être utile pour y extraire de la connaissance de façon approximative mais fiable. Les méthodes et algorithmes traditionnels de gestion et de fouille des données statiques ne peuvent pas être appliquées directement sur les flots de données et de nouveaux paradigmes doivent être apportés. L'idée principale est qu'un flot ne peut pas être stocké mais doit être traité « à la volée », que ce soit pour répondre à des requêtes ou pour exécuter une opération de fouille. Le traitement « à la volée » implique de mettre en place et de maintenir des résumés des données qui sont passées dans le flot. Ces résumés sont une représentation approximative du flot de données, qui permet d'approcher les résultats que l'on obtiendrait avec une requête ou un processus de fouille « classiques » .
|