Nous avons étudié les requêtes du premier trimestre 2001, ce qui correspond à 88 jours d’archives, du 1er janvier au 31 mars 2001 —les données des 8 janvier et 22 février étant perdues. Nous obtenons alors 11 millions de requêtes distinctes (pour environ 62 millions d’occurrences), composées à partir de 3,4 millions de formes graphiques différentes.
La variété de ces requêtes est à peine imaginable: certaines contiennent plus de... 1700 caractères, d’autres intègrent des tabulations, des passages à la ligne, des successions de dièses ou de points, etc. Le nombre de mots qui les composent est colossal. Aussi, avons-nous réalisé un premier toilettage: les caractères de contrôle 4, les symboles &, @, les accolades et les signes de ponctuation (sauf les points) ont été remplacés par des espaces. La répétition de certains caractères a été éliminée: ainsi +++ et - - deviennent simplement + et - (opération appliquée aux caractères suivants: +, -, %, ., #). Ensuite, les parenthèses, apostrophes, signes =, * et $, ainsi que les guillemets (auparavant réduits au type le plus simple), ont été isolés par des espaces. Cette opération n’a pas été appliquée au point pour éviter de scinder des URL (www.x.y) et l’a été partiellement pour le tiret, de façon à conserver les mots composés 5. Les majuscules ont été réduites en minuscules, et tous les caractères ont perdu leurs diacritiques (le ñ comme le ó ou le ç). Le ß et le æ ont aussi été tranformés en ss et en ae. Pour finir, les espaces précédant et terminant les requêtes ont été supprimés, et les espaces intermédiaires consécutifs —multipliés par les opérations précédentes— réduits à un seul.
Nous appelons Nett1 cette première procédure de réduction 6. Elle permet de réduire la taille du vocabulaire de 45 %: on passe de 3 348 586 mots distincts (après élimination des caractères de contrôle) à 1 842 768; de façon prévisible, elle réduit peu le nombre de requêtes distinctes: la baisse n’est que de 8 % (10 103 055 requêtes distinctes au lieu de 10 957 253).
Le tableau 2.1 détaille les résultats obtenus avec cette première procédure. Le total des fréquences des mots se monte à 143 276 089 pour 88 jours.
|
Il nous faut insister sur la complexité d’un tel travail. Nous verrons par exemple qu’un échantillonnage trop précoce biaise fortement l’analyse que l’on pourrrait faire de telles listes de requêtes. Les programmes doivent être exhaustifs (il faut penser à tous les cas de figure possibles) et surtout, doivent s’enchaîner de façon efficace: chaque programme et fichier résultat s’intègrent dans une procédure 8, et il arrive hélas fréquemment que l’on doive la relancer à partir du début, ce qui peut prendre plusieurs nuits de calcul 9, voire plus si l’on arrive en limite des possibilités de la machine 10, et l’on n’est jamais à l’abri d’une erreur: dans de tels cas, où la lecture exhaustive des fichiers par l’homme est irréalisable, mieux vaut trop vérifier ses sources que pas assez.
Par exemple, un mois après avoir entamé de tels travaux, nous avons découvert que certaines lignes des archives étaient incomplètes: pour 2174 requêtes du mois de janvier 2001, il manquait au moins l’un des champs précédemment décrits, quand la ligne n’était pas intégralement vide.
À ce stade de la préparation des données, il convient de n’avoir aucun préjugé. Par exemple, on aurait pu se débarrasser de requêtes rares et peu lisibles, comme la requête « # cat kjbible | tr cs a-za-z 012 | tr a-z a-z | sort | uniq » qui n’apparaît que trois fois et qui semble difficile à catégoriser en fonction des mots qui la composent, bien qu’elle puisse être compréhensible pour un informaticien. Sinon, l’incompréhension peut être totale, comme avec cette requête: « #1575 #1604 #1602 #1590 #1575 #1569 #1601 #1610 #1605 #1589 #1585 ». D’autres cas intermédiaires peuvent apparaître, comme pour la requête commençant par « %28courbes near alg%e9briques%29 and %28%28repr%e9sentation », dont le sens est clair. Il ne faut pour autant imaginer que les codages seront la cause principale de la difficulté à classer et à interpréter les requêtes ou les mots. Certes, certaines requêtes ne seront pas utilisables, mais il apparaîtra que les requêtes les plus simples et les plus lisibles seront parfois les plus délicates à analyser, souvent parce qu’elles sont composées d’un seul mot, polysémique suivant son contexte (paris, carte, etc.).
Ainsi, une première approche de ces données passe par leur description détaillée, sans aucune forme de préjugé. Ce n’est qu’après un temps assez long qu’émergent, au fil des programmes, des profils variés avec lesquels on finit par se familiariser.
Nous appelons « mots-outils » ou « connecteurs » ces formes graphiques: en effet, si l’on considère le graphe dont les mots des requêtes sont les sommets et dont les arcs sont définis par la cooccurrence de deux mots dans une même requête, il apparaît intuitif que ces « connecteurs » garantissent l’existence d’un chemin entre des mots sémantiquement lointains 11 (bien sûr, une telle définition ne correspond pas à celle des grammairiens).
|
Avant tout chose, nous rappelons le caractère exploratoire d’un tel travail, même s’il existe désormais une littérature abondante sur le sujet 14. Notre but est de montrer que les outils d’appropriation que nous construisons pour étudier cette longue liste sont essentiels pour lui faire produire du sens autre qu’une succession de préjugés. Par exemple, nous ne connaissons rien des utilisateurs de Goosta, même si nous pouvons penser qu’ils se recrutent principalement parmi un « grand public » 15 aux contours bien vagues: nous savons aussi —grâce à nos enquêtes précédentes— qu’il n’y a pas de corrélation directe entre le niveau culturel et la compétence en matière d’internet documentaire. Enfin, si nous pouvons imaginer que les centres d’intérêt des internautes sont fortement contraints par les médias (télévision, presse, etc.) et par les normes de consommation, nous sommes d’autant moins intéressés à prouver une telle assertion qu’elle nous semble découler, non pas d’un conformisme de la population étudiée, mais de celui des chercheurs (et de leurs méthodes et outils) qui sont à l’origine de ce type de proposition.
Les descriptions qui suivent sont donc sommaires, et tant la structure du corpus que la volonté d’en dégager les traits saillants ne permettront pas, dans le cadre de ce travail, d’utiliser des méthodes syntaxiques raffinées, et encore moins des outils d’analyse sémantique. L’important est de défricher et d’explorer un domaine de recherche, d’en montrer les intérêts et les limites, l’intuition qui nous porte étant qu’un tel travail est fructueux, non pas malgré son coût apparent, mais du fait de ce coût: il permettra de montrer ce que les sciences sociales —en usant au mieux du potentiel réflexif de l’écriture— peuvent apporter à ce type de recherche, aujourd’hui monopolisée par les informaticiens et les spécialistes du marketing.