Annexe 4 : Sélection des moteurs de recherche pour l'étude L5

Introduction

Les moteurs de recherche utilisés pour la dernière étude ont évolué et d'autres sont apparus dans les deux dernières années. Un travail systématique d'analyse de la compatibilité des moteurs disponibles avec la méthodologie utilisée pour cette étude s'est révélé nécessaire. Des incompatibilités ont conduit à écarter un certain nombre de moteurs. Les moteurs de recherche qui furent présélectionnés (voir 4.1.1) sont : Altavista, Fastsearch (Alltheweb), Google, Infoseek, iWon et Northernlight : six moteurs donc, indépendants les uns des autres, plutôt même en concurrence sur le marché de la recherche par mot clé sur l'Internet.
Il est apparu que les résultats des mesures de présence dans les pages de la Toile des termes de notre échantillon varient fortement selon le moteur de recherche utilisé. Pour tenter de comprendre ce phénomène qui risquerait de disqualifier définitivement notre méthodologie, une étude a été réalisée dès le mois d'août 2000, prenant en considération les éléments suivant, susceptibles d'avoir une influence sur la validité des résultats :

le nombre de pages indexées,

la façon dont sont sélectionnées les pages indexées,

la cohérence des résultats de comptages présentés.

Les résultats par moteur et par langue

Les résultats ci-dessous présentent le total du nombre de pages Internet comportant au moins une des 1600 variantes de termes de l'étude en août 2000. La colonne de l'anglais donne le total de pages dénombrées (en millions) par moteur de recherche pour l'ensemble des termes en anglais. Les chiffres contenus dans les autres colonnes représentent, pour chaque langue, le pourcentage, par rapport à l'anglais, du nombre total de pages dénombrées. Par exemple, pour iWon : 212 millions de pages ont été comptées pour les termes en anglais et 2,14 millions pour le portugais (1,01% de 212).

Table 16 : Résultats de l'étude pour les 6 moteurs de recherche présélectionnés

	Anglais	Espagnol	Français	Italien	Portugais	Roumain	Allemand
Altavista	188 M	9,28%	9,56%	4,50%	3,98%	0,19%	16,06%
Fast	147M	8,41%	7,33%	4,60%	3,95%	0,37%	8,47%
Google	210M	7,86%	7,33%	4,65%	2,82%	0,27%	7,89%
Infoseek	37M	2,49%	3,97%	2,98%	0,96%	0,03%	5,39%
IWon	212M	4,13%	2,64%	0,69%	1,01%	0,35%	5,44%
Northern Light	145M	6,32%	5,26%	3,66%	3,50%	0,26%	5,23%

Comme on peut le constater, les résultats, en dehors de ceux de Fast et Google, offrent des écarts importants selon le moteur de recherche utilisé, ce qui remet très sérieusement en question la validité de notre méthode. Il s'est avéré donc nécessaire d'analyser les spécificités de chaque moteur utilisé pour comprendre la raison de ces écarts et aussi pour déterminer quels sont les moteurs qui fournissent des résultats rigoureux selon nos critères.

Une analyse des moteurs de recherche exige au préalable une connaissance des caractéristiques quantitatives de l'Internet.

Données relatives à l'Internet et aux moteurs de recherche

Quel est le volume de la Toile ?

On dispose de quelques données à ce sujet :

En janvier 2000, Inktomi

le Web a dépassé le milliard de pages

4.4.2

mai 2000 : 1,5 milliards

Etude de cyveillance search : 2,1 milliards de page en juillet 2000, avec une croissance exponentielle de 7 millions de nouvelles pages par jour. Cette étude assure qu'il y a 84,7% de pages en anglais sur le Web. Les moteurs de recherche avec les index les plus larges.

La compétition fait rage sur le marché des moteurs de recherche : cela provoque une forte motivation pour l'accroissement de la taille des index. Les leaders dans le domaine de l'indexage du Web sont actuellement :

Google

Webtop

Inktomi

Searchengine Watch

Altavista

Fastsearch

Northern Light

Il est important de constater que les moteurs indexent une proportion notable de l'univers qui nous intéresse (entre 25 et 50%) ce qui rend possible l'application de notre méthodologie sans trop d'écueils sur le plan statistique².

Comment les pages sont-elles indexées?

Il convient de noter que toutes les pages détectées par les moteurs de recherche ne sont pas incluses dans l'index. La table suivante indique le nombre de pages réellement présentes dans l'index de certains moteurs de recherche en comparaison avec le volume annoncé de l'univers indexé³.

	PAGES ANALYSÉES (millions)	PAGES INDEXÉES (millions)
Altavista	400	250
Fast	700	400
Excite	920	250
Inktomi	1000	110

Il est intéressant de comprendre comment la réduction est faite et en quoi cela peut affecter la validité des résultats de notre étude. Deux approches différentes ont été identifiées :

Inktomi : Un index de base de 110 millions de pages sélectionnées et classées à partir d'une source de 1 milliard de pages. Le critère de sélection pour l'index de base est de considérer seulement les pages dont l'URL est le plus fortement cité (c'est à dire les pages qui font l'objet du plus grand nombre de liens externes). Cette technique permet de sélectionner les pages les plus reconnues en les classant facilement par ordre de "célébrité", tout en gardant un temps de réponse faible grâce à la taille réduite de l'index de travail. Cette approche tout à fait respectable du point de vue de l'objectif premier des moteurs est malheureusement disqualifiante pour l'application de notre méthodologie car la répartition statistique des pages est faussée par un algorithme qui favorise certaines pages de manière non neutre sur le plan linguistique (les pages les plus populaires, donc le plus souvent en anglais, auront une plus grande probabilité de faire partie des 110 millions d'élus). Ce mécanisme montre clairement ses conséquences pour le roumain (les termes roumains ont des scores anormalement faible, trop souvent nul).
Altavista, Excite, Fast, and Google : Un index plus grand avec une sélection moins forte et surtout indépendante du contenu (on ne supprime que les sites miroirs et ceux qui donnent des erreurs 401⁴ ou 404⁵ ). Avec cette technique, les index sont plus larges; s'ils ne donnent pas forcement les résultats les plus cohérents en terme de pertinence ils sont compatibles avec notre méthodologie puisqu'ils ne devraient pas favoriser une langue au détriment d'une autre. A noter que Google conserve une image des pages au moment où elles ont été mises dans son index, ce qui permet de retrouver l'information même quand la page indexée a été éliminée de la Toile.

Validation des moteurs de recherche en fonction de notre méthodologie

Altavista

Altavista est, depuis plusieurs années, l'un des moteurs de recherche les plus utilisés sur le Web. Son index reste l'un des plus large; cependant l'utilisation de ce moteur de recherche dans le cadre de notre étude n'est, une fois de plus⁶, pas possible. En effet :

Altavista "tronque les résultats"⁷ . Cette disposition est prise par Altavista pour arriver réduire son temps de réponse dans le cas où son serveur est surchargé (le moteur de recherche peut arrêter de traiter une requête et ne fournir qu'un résultat partiel).
Comme lors de l'étude précédente, il ne nous a pas été possible d'établir la nature précise de la gestion des signes diacritiques; s'il y a une logique elle ne nous est pas apparue et dans ces conditions il est impossible de faire un travail sérieux.
Les valeurs affichées pour les comptages changent de manière aléatoire; par exemple on peut très bien avoir un nombre de pages différent pour la même requête si on regarde les résultats de 1 à 10 ou de 11 à 20...

Infoseek

Infoseek a une taille d'index trop faible pour être utilisé dans le cadre de notre méthodologie (on le constate sur les chiffres des pages en anglais : 36 millions contre plus de 150 pour la plupart des autres moteurs). Cette faiblesse d'indexage confère un avantage à l'anglais relativement aux autres langues présentes sur l'Internet.

iWon

iWon utilise le même index que Hotbot (Inktomi), le moteur que nous avions utilisé dans l'étude précédente. La technique de sélection de pages d'Inktomi n'est pas compatible avec notre méthodologie comme nous l'avons expliqué.

Northern Light

Ce moteur n'a pu être utilisé pour notre étude parce qu'il ne traite pas les signes diacritiques (en particulier, il n'interprète pas correctement les signes utilisés par le roumain). En outre, il recherche les pluriels des termes systématiquement quand on fait des recherches en anglais, mais pas dans les autres langues.

Google

Ce moteur, qui prétend posséder l'index le plus large sur le Web, donne des résultats rapides. Dans un premier moment, il avait été écarté car, à l'instar d'Altavista, il tronquait ses résultats. Cet inconvénient ayant été corrigé, il a été sélectionné pour l'obtention des résultats finaux. Cependant lors du comptage de juin 2001, les signes diacritiques n'étant plus traités de façon satisfaisante, nous l'avons de nouveau écarté.

Fastsearch
Fastsearch, qui possède un des index les plus larges, donne des résultats rapides, ne tronque pas les résultats, ne restreint pas son index aux sites les plus populaires et traite les signes diacritiques de manière satisfaisante. Il a été ainsi le moteur sélectionné pour l'étude, en date de juin 2001.

Conclusion

Le moteur de recherche Fastsearch reste le seul, au moment des dernières mesures (juin 2001), permettant d'utiliser notre méthodologie pour la mesure de la répartition des langues sur la Toile et c'est ainsi de lui que procèdent les résulats finaux. Mais le fait que les chiffres produits par Fastsearch et Google jusqu'à janvier 2001 étaient statistiquement très proches (les intervalles de confiance se recoupant largement) a été un élément essentiel pour maintenir la confiance en la validité de notre méthodologie.

	Espagnol	Français	Italien	Portugais	Roumain	Allemand
Fast	8,41%	7,33%	4,60%	3,95%	0,37%	8,47%
Google	7,86%	7,33%	4,65%	2,82%	0,27%	7,89%
ECART	6,5%	0,0%	1,1%	28,6%	27,0%	6,8%
COEFF. VARIANCE	0,84	0,55	0,90	1,06	1,13	0,65
CONFIANCE 90%	6,58-9,57	6,44-8,19	3,70-5,52	2,72-4,41	0,19-0,43	6,96-9,19

Retour en haut de la page

Il semble que la moitié d'entre elles ne sont pas indexée directement mais qu'elles font l'objet d'un algorithme original qui travaille à partir du texte des liens vers ces pages. Nous ne disposons pas de précisions suffisantes sur la nature de cet algorithme pour pouvoir en tirer des conclusions, mais il semble qu'il n'y ai pas d'impact sur nos mesures.
Toutefois, il n'est pas interdit de penser que pour un échantillon de l'ordre de 25 à 50% de l'univers, il puisse exister un biais dans la sélection de l'index qui favorise les langues les plus utilisées, et en premier lieu l'anglais. En particulier, il est fortement probable que les sites les plus nouveaux ne soient pas indexés aussi vite que les sites les plus anciens et que cela représente un préjudice statistique pour les langues jeunes sur l'Internet.
Les chiffres présentés au paragraphe précédant sont de mars 2000 alors que ceux-ci sont de juillet 2000, ce qui explique les différences.
C'est-à-dire une page à accès restreint, non disponible pour grand public.
C'est-à-dire une page inexistante dans un site référencé correctement.
Altavista avait été écarté lors de l'étude précédente pour les mêmes raisons.
C'est-à-dire qu'il ne prend pas en compte une partie des pages répondant au critère de recherche, ce qui produit une réduction de la valeur de comptage, laquelle ne correspond donc plus à la réalité.