
Mutualisation des Anomalies
confidentielle
pour la détection de comportements malveillants
|
AxIS |
KDD |
|
Inria |
LGI2P |
|
Sophia Antipolis |
Nîmes |
La détection de comportements malveillants se base actuellement sur deux types d’approches.
Le premier type consiste à énumérer toutes les attaques/intrusions connues et ensuite à filtrer les comportements entrants en supprimant ceux qui correspondent à une de ces attaques. Il s’agit des approches par mauvais usages (misuse). Ces approches sont celles qui se commercialisent actuellement via les IDS (Intrusion Detection Systems). Leur principal défaut vient de leur incapacité à détecter une attaque qui ne fait pas partie de la liste prédéfinie. En d’autres termes, ces approches n’offrent aucune une résistance aux nouvelles attaques.
Le deuxième type d’approches repose sur la détection d’anomalies (ou comportements atypiques). Avec une première phase d’apprentissage (généralement de la fouille de données), ce type de méthode établit une base de connaissances sur les comportements « normaux ». Dès qu’un comportement s’écarte trop de ceux enregistrés dans cette base, il est considéré comme anormal ou atypique. Bien entendu, tous les comportements atypiques ne sont pas malveillants. Si un comportement atypique est, à tort, considéré comme une attaque et lève le déclenchement d’une alarme, alors on dit qu’il s’agit d’un faux positif (ce qui correspond d’ailleurs à une fausse alarme…). La difficulté de mise en œuvre de ces approches est bien entendu liée à l’ensemble d’apprentissage qui doit être suffisamment exhaustif pour être capable de déterminer quels sont les comportements normaux. Ainsi l’application de ces méthodes dans un contexte réel est difficile car le nombre d’alarmes générées est trop important. Ce domaine est donc un sujet très étudié à l’heure actuelle. L’objectif principal des travaux menés est la réduction du nombre de faux positifs dans la détection d’anomalies tout en garantissant la détection de toutes les vraies attaques (y compris les nouvelles). Ceci permettrait de dépasser la technologie des approches par misuse.
Cette maîtrise du nombre de faux positifs est l’objectif du projet MUTAN. Pour cela, nous envisageons de faire collaborer les systèmes à surveiller avec l’idée qu’une majorité de comportements malveillants est partagée par les différents systèmes. Dans la description scientifique, nous détaillerons cette idée et nous présenterons le principal verrou technologique soulevé par notre proposition.
La durée du projet MUTAN est de 1 an.
EPI AxIS – INRIA Sophia Antipolis – Méditerrannée
L’EPI AxIS est basée sur une approche multi-disciplinaire pour l’analyse, la conception et l’amélioration des systèmes d’information. Les techniques développées font appel à des compétences en intelligence artificielle, fouille de données ou encore génie logiciel. Ces compétences complémentaires sont nécessaires pour atteindre nos objectifs principaux: 1) développer des méthodes et outils pour aider à la fois à l’analyse d’un SI et à celle de son utilisation 2) aider à la validation, la maintenance et l’amélioration de SIs. Actuellement nous travaillons sur les SIs basés sur le Web et les NTIC.
Dans le cadre de cette action Color, nous souhaitons utiliser nos compétences en fouille de données afin de répondre à un des prérequis de nos objectifs scientifiques : la détection d’anomalies.
Participants :
Equipe KDD – LGI2P – Nîmes
Les travaux menés par le projet KDD (Knowledge Discovery for Decision making) concernent l’extraction et la visualisation de connaissances à partir de grandes bases de données. Parmi les différentes techniques d’extraction, nous nous sommes intéressés ces dernières années à la détection de motifs séquentiels afin de rechercher des comportements typiques. Ces techniques ont été utilisées dans différents domaines d’application tels que le Web Usage Mining, le Text Mining. Afin de prendre en compte ces applications, nous avons également étendu les approches traditionnelles pour pouvoir gérer de nouveaux types de contraintes (données réparties, données disponibles en temps réel, données inattendues, …). Dans le cadre de cette action Color, nous souhaitons collaborer avec le projet AxIS afin d’exploiter nos travaux en fouille de données préservant la vie privée (privacy preserving data mining / fouille de données confidentielle) dans le cadre de la détection d’anomalies.
Participants :
Optimiser le taux de détection des méthodes de détection d’intrusions basées sur les anomalies consiste principalement à améliorer deux indicateurs :
- Les faux positifs. Il s’agit des fausses alarmes. Leur nombre doit être le plus faible possible.
- Les faux négatifs. Il s’agit de véritables attaques/intrusions qui n’ont pas été détectées. Leur nombre doit être le plus faible possible.
Notre objectif est d’optimiser ces indicateurs et d’appliquer nos propositions à la détection d’intrusions sur des sites Web. L’idée principale de notre projet se base sur plusieurs observations :
1. Les systèmes d’information reposent sur un nombre limité d’architectures possibles. Par exemple pour un site Web, il peut s’agir principalement de Apache ou Microsoft IIS (les deux principales architectures de serveurs Web). Pour schématiser on peut également dire que pour une base de données, ce sera IBM DB ou Oracle et pour un système d’exploitation ce sera Linux, Windows ou Mac OS…
2. Les attaques/intrusions qui fonctionnent sur un système d’information sont en majorité reproduites sur d’autres systèmes avec la même architecture. Par exemple, sur un serveur Web Microsoft, quand une faille est trouvée, elle est diffusée, améliorée et reproduite. Ainsi, les attaques qui fonctionnent se propagent et sont réutilisées d’un site à l’autre.
3. Avant qu’une attaque soit détectée, comprise et validée dans les bases de signatures des IDS commerciaux, il s’écoule assez de temps pour que de nombreux sites en soient victimes.
Dans la section 3.1 nous présentons un tour d’horizon des méthodes existantes pour la détection d’anomalies et dans la section 3.2 nous proposons notre approche pour minimiser les faux négatifs en se basant sur les observations précédentes.
La détection d’anomalies est un thème de recherche qui fait appel à la fouille de données pour aider à sécuriser un système d’information. Pour préciser la description faite en section 1, nous pouvons dire que la détection d’anomalies se décline en plusieurs approches.
Les méthodes à base de classifieur.
Il s’agit d’apprendre (training) les comportements normaux et anormaux (qui sont donc étiquetés) et construire des modèles pour les deux types de comportements. Ensuite en phase de détection, les nouveaux comportements sont comparés aux modèles existants pour décider s’il s’agit d’un comportement normal ou anormal (Münz et al., 2007 ; Fawcett et al., 1997 ; Gomez et al., 2001).
Les méthodes de détection des comportements
atypiques (outliers).
Il s’agit de construire des modèles correspondant à tous les usages normaux passés (généralement avec des techniques de regroupement ou clustering). Ensuite, les nouveaux comportements sont comparés à ces modèles et ceux qui s’en éloignent trop (outliers) sont considérés comme atypiques (Friedman et al., 2007 ; Last et al., 2001). Dans (Joshi et al., 2001) les auteurs proposent également de détecter les classes de comportements les plus rares, ce qui peut s’approcher de la notion d’outlier.
Les méthodes basées sur un critère expert.
Il s’agit d’extraire des motifs dans les comportements qui correspondent à un critère spécifié par l’expert. Par exemple les motifs qui ont une fréquence élevée sur une période très courte sont typiques des attaques DDoS. Une attaque DDoS correspond à la synchronisation de plusieurs machines qui envoient ensemble des messages lourds à un serveur de mails afin de le faire saturer et l’empêcher de fonctionner normalement. Ces attaques génèrent donc un motif fréquent (titre et taille du message) sur une période courte (la durée de l’attaque).
L’EPI AxIS a récemment proposé l’algorithme DeiCo (Saleh et al., 2008) qui permet de découvrir les motifs qui ont un support élevé de manière très localisée (rapprochée dans le temps) et donc d’extraire des comportements correspondant à ce type de critère expert.
Verrou technologique : diminuer le
nombre de faux positifs.
Toutes ces méthodes (à base de fouille de données) partagent le même inconvénient : elles génèrent un grand nombre de fausses alarmes. Il est, en effet, très difficile de trouver les bons critères pour dessiner la frontière entre les comportements atypiques et les comportements malveillants. Notre proposition dans ce sens est détaillée en section 3.2.
Notre approche se base sur les observations mentionnées en début de section (partage des architectures entre systèmes d’information et reproduction des attaques d’un système à l’autre). Quand un trop grand nombre de comportements suspects est généré pour un système A, alors ces comportements ne sont pas exploitables pour générer des alarmes, même si une véritable attaque fait partie de ces comportements suspects. En revanche, quand un comportement suspect est partagé par deux systèmes A et B, alors notre heuristique se base sur les points suivants :
En d’autres termes, puisque les attaques se propagent d’un système à l’autre :
- On doit les retrouver dans les anomalies détectées sur les deux systèmes.
- Seules les attaques doivent se retrouver dans les anomalies détectées sur les deux systèmes. En se basant sur ces anomalies communes on ne génère probablement aucune fausse alarme et donc on répond au verrou des faux positifs.
Notre objectif est donc de mutualiser les anomalies découvertes par plusieurs sites qui collaborent pour se protéger. Cependant, cette solution au verrou technologique des faux positifs et soulève un autre : la confidentialité des données.
Verrou technologique : le partage
confidentiel des anomalies
Pour que plusieurs systèmes d’informations partagent leurs connaissances (leurs comportements atypiques) il faut leur garantir que les données seront échangées avec un niveau élevé de confidentialité. Partager des informations sans en divulguer le contenu est un sujet récent de la fouille de données, connu sous le nom de privacy preserving data mining.
Récemment, de nombreux travaux se sont intéressés à la définition d’algorithmes de fouille de données préservant la vie privée (e.g. (Pinkas, 2002; Clifton et al., 2003)). Ainsi, des approches adaptées à la classification (Du et al., 2004), à la recherche de règles d’association (Evfimievski et al., 2004) et au clustering (Jagannathan et al., 2005) permettent d’extraire de la connaissance tout en respectant la contrainte de la vie privée. Par exemple, (Lindell et al., 2002) proposent une nouvelle approche de classification utilisant un protocole de transfert sécurisé, inspiré des SMC (Secure Multi-Party Computation), entre les différentes bases de données. (Vaidya et al., 2002) considèrent une architecture sécurisée composée de deux parties effectuant les opérations avec les différentes bases afin de rechercher les règles d’association. Enfin, une nouvelle architecture garante de la sécurité et particulièrement adaptée aux problèmes de fouille de données a été proposée dans (Kantarcioglu et al., 2002).
L’équipe KDD du LGI2P a proposé récemment
l’algorithme PRIPSEP pour l’extraction de motifs séquentiels sur plusieurs sources
en préservant la confidentialité des données (Kapoor et al., 2006)
Dans cette proposition d’action COLOR, la difficulté consiste à extraire les comportements atypiques, ou suspects, (grâce aux techniques développées dans AxIS) et à les comparer sans qu’un site soit obligé d’en divulguer le contenu (grâce aux techniques de fouille de données confidentielle développées dans l’équipe KDD). Les résultats de ces recherches permettront de résoudre les deux verrous technologiques mentionnés dans la proposition d’action MUTAN.
Bibliographie :
Clifton
C., Kantarcioglu M., Lin X., Vaidya J., Zhu M.,
Tools for privacy preserving distributed data mining , SIGKDD Explorations,
vol. 4, n° 2, p. 28-34, 2003.
Du
W., Han Y., Chen S., Privacy-preserving multivariate statistical analysis:
linear regression and classification, Proc. of the Fourth SIAM Int. Conf. on
Data Mining, p. 222-233, 2004.
Evfimievski
A., Srikant R., Agrawal R., Gehrke J.,
Privacy-preserving mining of association rules , Information Systems,
vol. 29, n° 4, p. 343-364, June, 2004.
Fawcett T.and Provost F. Adaptive
Fraud Detection. In Data Mining and Knowledge Discovery, 1(3):291-316, 1997.
M. Friedman, M. Last, Y. Makoverb,
and A. Kandel. Anomaly Detection in Web Documents Using Crisp and Fuzzy-based
Cosine Clustering Methodology. Information Sciences, 177(2):467-475, 2007.
M. V. Joshi, R. C. Agarwal, and .
Kumar. Mining Needle in a Haystack: Classifying Rare Classes Via Two-phase Rule
Induction. In ACM SIGMOD 2001.
Jagannathan
G., Wright R., Privacy-preserving
distributed k-means clustering over arbitrarily partitioned data , Proc. of KDD
05, p. 393-399, august, 2005.
J. Gomez and D. Dasgupta. Evolving
Fuzzy Classifiers for Intrusion Detection. In IEEE Workshop on Information
Assurance, 2001.
V. Kapoor, P. Poncelet, F. Trousset
and M. Teisseire. Privacy Preserving Sequential Pattern Mining in Distributed
Databases. CIKM’06,
Kantarcioglu
M., Vaidya J., An architecture for
privacy-preserving mining of client information , Proc. of the Workshop on
Privacy, Security, and Data Mining in conjunction with the 2002 IEEE ICDM Conf,
p. 27-42, 2002.
M. Last and A. Kandel. Automated
Detection of Outliers in Real-world Data. In International Conference on
Intelligent Technologies (InTech’01), pp 292-301, 2001.
Lindell
Y., Pinkas B., Privacy preserving data
mining , Journal of Cryptology, vol. 15, n° 2, p. 177-206, 2002.
G. Münz, S. Li and G. Carle. Traffic
Anomaly Detection Using k-means Clustering. In GI/ITG Workshop MMBnet’, 2007.
Pinkas
B., Cryptographic techniques for privacy preserving data mining, SIGKDD
explorations, vol. 4, n° 2, p. 12-19, 2002.
B. Saleh and F. Masseglia. Extraction
d’Itemsets Compacts. Accepté à la conférence EGC’2008. A paraître.
Vaidya
J., Clifton C., Privacy preserving
association rule mining in vertically partitioned data, Proc. of KDD 02, p.
639-644, July, 2002.