Projet "Analyse des fichiers logs des sites Web de l'INRIA"
Licence Professionnelle STID MENTON, 2004/2005
Encadrants : Sergiu CHELCEA (responsable) et Brigitte TROUSSE
Projet AxIS, INRIA Sophia Antipolis
Pretraitement | Objectif final | Tâches principales | Planning | Ressources | Contact
Pretraitement :
Informations sur les données utilisées, sur le pretraitement des données
réalisé à l'INRIA, etc.
(Html, PDF)
Quelques chiffres :
- 2.4Gb les logs initiales et 265 Mb après pretraitement (le fichier csv).
- 10.994.864 requêtes initiales et 1.358.168 requêtes après pretraitement.
Objectif final :
Faire une analyse des logs issus de deux serveurs HTTP de l'INRIA (siège et UR Sophia Antipolis), en vue de mieux comprendre les internautes qui les visitent et de faire des recommandations aux concepteurs de ces deux sites.
Tâches principales à réaliser :
- Redaction d'un rapport détaillé de projet (tout au long du projet);
- Mettre le log Web pretraité (fichier texte csv) dans une base de données relationnelle en utilisant la structure indiquée ici;
- Vérifier le nettoyage des robots;
- Faire une analyse statistique descriptive à
partir de ces données (BD relationnelle) au niveau
requête et surtout navigation;
- Faire une analyse au niveau navigations à
partir d'un ensemble de questions pertinentes à valider en commun.
Ces questions devront mettre en jeu des algorithms de classification
automatique (CAH, Réseaux de neurones, etc.) ou des analyses de type ACP.
Elles nécessiteront d'exporter les données pertinentes dans un ou
plusieurs des logiciels
disponibles à l'IUT Menton (SAS, Enterprise Miner, etc.);
- Interprétation des résultats des analyses.
Planning conseillé :
- fin décembre : fichier texte en BD relationnelle et analyse statistique descriptive;
- à voir ...;
- debut avril : fin du projet.
Ressources :
- Présentation du projet (04 Novembre 2004) :
- présentation pretraitement des données [PPS];
- exemple d'analyse des logs utilisant l'ACP [PPS];
- exemple d'analyse des logs utilisant la 2-3 CAH [PPS].
- Structure de la BD et description des tables
- Article court sur le pretraitement et l'ACP des logs Web
PDF
- Publications de l'équipe AxIS
- HTTP Status Messages : W3C, Plus simple :)
- A Brief Introduction to Web Spiders and Agents
Contact:
Téléphone bureau: +33 4 92 38 78 81
E-mail :
|
|
Chelcea Sergiu
Last modified: Tue Apr 12 17:36:09 MEST 2005