4 Les résultats
Pour la suite de l'analyse, les mesures se sont restreintes uniquement à certains serveurs. Nous allons étudier les sites suivants : www.inria.fr (serveur local de l'inria), www.inra.fr (serveur de l'institut national de recherche agronomique), www.edf.fr (Electricité de France), des serveurs de télévision et de journaux. Bien sûr, le nombre de pages constituant un site ne est donné qu'à titre indicatif, et peut changer d'un jour sur l'autre.
4.1 Des serveurs de laboratoires de recherche
Les laboratoires de recherches créent des sites Web pour présenter leurs travaux. Souvent, ces serveurs sont composés de différents projets. On peut également distinguer des pages de présentation des lieux et travaux, des rapports de recherches et d'activités, des pages personnelles. Il existe donc plusieurs groupes de pages qu'il est possible de distinguer par rapport à leur mise à jour.
4.1.1 Institut National de Recherche en Informatique et Automatique
Sur le serveur local, nous pouvons voir que la moyenne de mise à jour est très élevée, soit environ une moyenne de 271 jours, ce qui signifierait que les pages de l'I.N.R.I.A. sont modifiées seulement tous les neufs mois. La fréquence de mise à jour étant si peu élevée, il serait facile de conclure que le site est très stable et que peu de changement ne sont faits. Pourtant, en regardant un peu l'histogramme suivant, nous allons découvrir de nouvelles données.
FIGURE 10. Histogramme de fréquences du serveur de l'I.N.R.I.A.Le serveur est constitué d'à peu près 16640 pages. Les premiers changements constatés les premiers mois ne sont pas très significatifs car beaucoup de pages, d'habitude stable, ont été changées pour améliorer la convivialité du site. Par contre une grosse activité est à signaler lors du deuxième mois. Aussi, nous pouvons déduire que l'hypothèse comme quoi les pages de ce site ne sont pas très modifiées est fausse. Alors comment expliquer une telle fréquence? Si nous nous attardons quelques seconde de plus sur ce schéma, nous voyons de forts changements, il y a environ 17 mois. On peut considérer ces pages comme «mortes» car il y a peu de chances qu'elles évoluent encore dans le temps. Si elles n'ont pas bougé, il est possible de l'expliquer : ce sont des rapports de travaux qui, une fois faits, n'évoluent guère. Dans le cas d'une création d'un miroir il ne serait pas très intéressant de visiter ces pages très souvent, car, à part cas exceptionnel, il n'est peu probable que ces pages évoluent encore. Par contre, les autres pages doivent être plus souvent visité afin de voir leur évolution dans le temps.
4.1.2 Institut National de Recherche Agronomique
Le serveur de l'I.N.R.A. (http://www.inra.fr) est un serveur de 3920 pages différentes. L'espérance de ce site est de 2718 heures soit environ 113 jours. C'est à dire que l'on peut donc considérer que ce site a une moyenne de mise à jour s'échelonnant dans une période d'environ quatre mois. Cette moyenne étant tout de même assez grande, il serait intéressant de voir comment se comportent les différentes pages du site.
On peut distinguer deux modes dans le graphe ci-dessus. Il s'agit en fait d'une forte mise à jour des pages constituant le site. Ils apparaissent à 50 et 130 jours de la date de visite. On peut également voir que seul, 3% des pages du sites ont été changées dans le dernier mois. On peut donc considérer que ce site a une activité moyenne du point de vue des mises à jours.
4.2 Le web de France Télévision
Si les serveurs des télévisions ont été choisis, c'est pour étudier le comportement d'un site dont les mises à jour doivent être fréquentes. En effet, il est probable que certaines pages soient modifiées régulièrement du moins celles donnant le programme de la semaine.
Il existe deux serveurs pour France Télévision, d'une taille de 808 adresses pour France 2 et de 1027 adresses pour France 3. En comparant l'espérance de ces deux sites (117 jours pour france 2 et 120 jours pour france 3), il semblerait que la mise à jour de ces serveurs est à peu près identique. Pourtant, les histogrammes suivants vont nous apporter plus d'informations.
Avec ces histogrammes, il est facile de voir que ces deux serveurs n'ont pas du tout le même comportement. Un point commun, cependant, est à signaler : ces deux serveurs ont dû être créés dans les mêmes périodes. A peu près le même nombre de page reste inchangé depuis dizaine de mois. Il s'agit des pages de présentation qui n'ont pas évolué depuis. Par contre, sur le serveur de France 3, nous pouvons distinguer qu'aucune (ou presque aucune) page n'a été changée durant la période de 430 jours à 50 jours avant la date de visite du robot. Deux explications sont possibles. Soit un certain nombre de page ont été créée à la date j-50 (mode de l'histogramme), soit toutes les pages ont été modifiées. Une étude plus approfondies dans le temps pourrait distinguer ces deux cas. Le site de France 2 a tout de même une plus grande activité que celui de France 3.
4.3 Le serveur de Nice Matin
L'étude du serveur de Nice Matin permet de suivre l'évolution d'un serveur mis à jour quotidiennement. Il a pourtant une fréquence moyenne de mise à jour de 100 jours qui ne reflète pas ces changements quotidiens. L'explication tient dans le fait que beaucoup de pages n'ont pas été changées depuis la création du service. En fait, ces pages resteront stable jusqu'à ce qu'il y ait un changement global de la présentation du site. Par contre, voyons deux histogrammes de fréquences à une semaine d'intervalle.
4.4 L'évolution des sites
Pour pouvoir approfondir les statistiques, multiplier les mesures serait nécessaire. Nous allons revenir sur le processus Poisson vu plus tôt. Considérons un site de N pages. Un premier robot va le parcourir pour en déterminer la hiérarchie générale. Une fois cette ordonnancement obtenu, prenons un second robot, qui va suivre cette hiérarchie suivant un processus de Poisson afin de rapatrier les dates de dernière modification des différentes pages visitées.
Ne considérons plus, à partir de maintenant, le domaine comme un site de N pages mais comme une grande page constituée de ces N pages initiales. Cette concaténation permet d'obtenir une page unique souvent visitée. On multiplie ainsi le nombre de visite sans pour autant exécuter plus souvent le robot.
La page concaténée est composée des N pages : la page 0 visitée entre t0 et t1, la page 1 entre t1 et t2, etc. Ainsi si V visites ont été programmées, on pourra considérer que la page ainsi créée aura été visitée V x N fois. C'est ainsi, qu'il est possible de faire des statistiques avec un faible échantillon représentatif.
Il faut que les points d'observation suivent un processus de
Poisson, c'est à dire que les dates des visites soient obtenues de
façon aléatoire. Considérons que nous obtenons des variables Yi
représentant la durée écoulée entre la dernière modification et la
visite d'une page. Supposons les variables Xi représentent la période
écoulée entre deux modifications. Nous avons alors :
où f est la fonction de densité.
Il est plus simple de se servir de l'égalité obtenue par la loi
limite centrale qui nous donne un résultat basé sur les
moyennes des variables Yi..
Les variables Yi étant des variables indépendante uniformément
distribuée.
Il est donc possible de calculer l'espérance des visites d'un site
à partir des résultats rapatriés par le robot. De plus, dans le cas
général, on peut en déduire : .
car nous sommes dans un cas de processus de Poisson pour les variables Y.
Si l'on suppose que les mises à jour des pages suivent également un
processus Poisson, et grâce à la théorie de renouvellement, on sait
que . Il est ainsi possible de
réduire l'équation précédente en : E(Y)=E(X).
En restant dans cette supposition que E(X)=E(Y), il est simple calculer l'espérance des variables Y, qui représente le temps écoulés entre la modification de la page et l'observation de cette même page par le robot. Aussi, nous en déduisons par conséquent l'espérance des modifications du site.
4.5 Les limites
Pourtant, comme vu dans les exemples précédents, ce calcul de l'espérance n'est pas très significatif. Un serveur Web n'est que très rarement homogène et pour obtenir une espérance qui relate la réalité, la solution est de décomposer le site en plusieurs groupes représentatifs. Cette décomposition pourrait se faire sur les modes des histogrammes de fréquences. Ensuite, il sera possible d'analyser les groupes obtenus et d'en tirer des conclusions car les échantillons seront beaucoup plus représentatifs et les résultats plus justes.
Il serait également possible de faire cette étude en séparant chaque page, mais il faudrait élargir la durée d'observation d'autant plus, ce qui parait peu réalisable. La meilleure solution reste la décomposition d'un site Web par catégorie représentative.