Web Usage Mining : extraction de motifs séquentiels multi points de vue

 

NIVEAU : DEA INFORMATIQUE

ORGANISME : INRIA Sophia Antipolis

ADRESSE : équipe AxIS, BP 93, 2004 route des Lucioles, 06902 Sophia Antipolis

ENCADREUR : MASSEGLIA, Florent (04 92 38 50 67)

ENCADREUR : TROUSSE, Brigitte (04 92 38 77 45)

florent.masseglia@sophia.inria.fr

brigitte.trousse@sophia.inria.fr

 

Sujet : le Web Usage Mining désigne l'ensemble des techniques basées sur le Data Mining (ou Fouille de Données) pour analyser le comportement des utilisateurs d'un site web (1). Reposant généralement sur la quantité de données enregistrées dans les fichiers de type access log et l'extraction de motifs séquentiels (2), ces méthodes permettent de mettre en évidence des comportements fréquents. Sur un portail d'ordre général, on pourrait découvrir par exemple que "25% des utilisateurs naviguent sur le site dans un ordre particulier, en consultant la page d'accueil puis la page concernant la guerre en Irak, puis le CAC40 puis reviennent sur la page d'accueil avant de consulter leur mail en tant qu'abonné".

En théorie cette analyse permet de mettre en évidence des comportement fréquents assez facilement. Cependant, la réalité montre que la diversité des pages et des comportements rend cette approche délicate.

Nous proposons d'enrichir les comportements extraits en ajoutant de l'information lors du processus d'analyse. Ces informations seront déduites d'un maximum d'indicateurs disponibles sur le site et ses usages. Par exemple, il est possible de classer les pages en différentes catégories selon les mots clés qui les caractérisent (e. g. les mots fréquents dans chaque page). Une autre information peut se trouver dans le design de chaque page (son ergonomie, ses couleurs). Grâce aux informations issues du fichier log (traces d'usages du site) il est possible de savoir si l'utilisateur est arrivé à consulter une page suite à une requête sur un moteur de recherche. Cela permet de savoir si les pages sont consultés pour tel ou tel aspect de leur contenu.

Une fois toutes ces informations extraites, un comportement fréquent pourrait alors devenir : "25% des utilisateurs naviguent sur le site dans un ordre particulier, en consultant une page très récente, puis une page de news, puis le CAC40, puis une page qui aborde le data mining, avant de consulter un service de communication".

Objectif : ce travail devra s'effectuer en deux temps :

- Proposer des informations que l'on pourra inférer sur les pages du site (principalement de la classification en fonction du contenu, de la couleur, de la date de mise en service, etc.

- Proposer une méthode d'extraction de motifs séquentiels qui soit adaptée à la prise en compte de tous ces facteurs. Ce deuxième point permettra l'extraction de motifs séquentiels multi point de vues, dont les applications semblent très prometteuses.}

Bibliographie

1) http://www-sop.inria.fr/axis/personnel/Florent.Masseglia/tanasa_cmi03.pdf

2) http://www-sop.inria.fr/axis/personnel/Florent.Masseglia/isiFinal.ps