
Annexe 4 : Sélection des moteurs de recherche pour l'étude L5
Introduction
Les moteurs de recherche utilisés pour la dernière étude ont évolué et d'autres
sont apparus dans les deux dernières années. Un travail systématique d'analyse
de la compatibilité des moteurs disponibles avec la méthodologie utilisée pour
cette étude s'est révélé nécessaire. Des incompatibilités ont conduit à écarter
un certain nombre de moteurs. Les moteurs de recherche qui furent présélectionnés
(voir 4.1.1) sont : Altavista,
Fastsearch (Alltheweb), Google, Infoseek, iWon et Northernlight : six moteurs
donc, indépendants les uns des autres, plutôt même en concurrence sur le marché
de la recherche par mot clé sur l'Internet.
Il est apparu que les résultats des mesures de présence dans les pages de la
Toile des termes de notre échantillon varient fortement selon le moteur de recherche
utilisé. Pour tenter de comprendre ce phénomène qui risquerait de disqualifier
définitivement notre méthodologie, une étude a été réalisée dès le mois d'août 2000, prenant en considération
les éléments suivant, susceptibles d'avoir une influence sur la validité des
résultats :
le nombre de pages indexées,
la façon dont sont sélectionnées les pages indexées,
la cohérence des résultats de comptages présentés.
Les résultats par moteur et par langue
Les résultats ci-dessous présentent le total du nombre de pages
Internet comportant au moins une des 1600 variantes de termes de l'étude en août 2000. La
colonne de l'anglais donne le total de pages dénombrées (en millions) par
moteur de recherche pour l'ensemble des termes en anglais. Les chiffres contenus
dans les autres colonnes représentent, pour chaque langue, le pourcentage,
par rapport à l'anglais, du nombre total de pages dénombrées. Par exemple,
pour iWon : 212 millions de pages ont été comptées pour les termes en anglais
et 2,14 millions pour le portugais (1,01% de 212).
Table 16 : Résultats de l'étude pour les 6 moteurs de
recherche présélectionnés
|
|
Anglais
|
Espagnol
|
Français
|
Italien
|
Portugais
|
Roumain
|
Allemand
|
|
Altavista
|
188 M
|
9,28%
|
9,56%
|
4,50%
|
3,98%
|
0,19%
|
16,06%
|
|
Fast
|
147M
|
8,41%
|
7,33%
|
4,60%
|
3,95%
|
0,37%
|
8,47%
|
|
Google
|
210M
|
7,86%
|
7,33%
|
4,65%
|
2,82%
|
0,27%
|
7,89%
|
|
Infoseek
|
37M
|
2,49%
|
3,97%
|
2,98%
|
0,96%
|
0,03%
|
5,39%
|
|
IWon
|
212M
|
4,13%
|
2,64%
|
0,69%
|
1,01%
|
0,35%
|
5,44%
|
|
Northern Light
|
145M
|
6,32%
|
5,26%
|
3,66%
|
3,50%
|
0,26%
|
5,23%
|
Comme on peut le constater, les résultats, en dehors de ceux de Fast et Google,
offrent des écarts importants selon le moteur de recherche utilisé, ce qui
remet très sérieusement en question la validité de notre méthode. Il s'est avéré
donc nécessaire d'analyser les spécificités de chaque moteur utilisé pour
comprendre la raison de ces écarts et aussi pour déterminer quels sont les
moteurs qui fournissent des résultats rigoureux selon nos critères.
Une analyse des moteurs de recherche exige au préalable une connaissance des
caractéristiques quantitatives de l'Internet.
Données relatives à l'Internet et aux moteurs de recherche
Quel est le volume de la Toile ?
On dispose de quelques données à ce sujet :
En janvier 2000, Inktomi affirme que le Web a dépassé le milliard
de pages (qui auraient été préindexées par ce moteur).
Accessoirement, Inktomi annonce le chiffre de 86,55% de pages en anglais
et 2,36% de pages en Français. Il est frappant de constater que le résultat
du français est très proche des valeurs que nous trouvons pour le moteur
de recherche iWon (lequel utilise l'index de Inktomi). Cependant, le chiffre
de l'anglais semble être victime d'une erreur de référentiel (voir 4.4.2).
Nouveau chiffre d'Inktomi en mai 2000 : 1,5 milliards de pages. Inktomi
souligne que la proportion de pages répliquées dans des sites miroirs est
supérieur à 20% (sur les 6,5 millions de serveurs indexés on trouverait
1,5 millions de miroirs).
Etude de cyveillance search : 2,1 milliards de page en juillet 2000, avec
une croissance exponentielle de 7 millions de nouvelles pages par jour.
Cette étude assure qu'il y a 84,7% de pages en anglais sur le Web.
Les moteurs de recherche avec les index les plus larges.
La compétition fait rage sur le marché des moteurs de recherche : cela provoque
une forte motivation pour l'accroissement de la taille des index. Les leaders
dans le domaine de l'indexage du Web sont actuellement :
Google : un milliard de pages indexées1.
Webtop : 500 millions de pages indexés mais pas encore testé suffisamment.
Inktomi : le nouvel index d'Inktomi, GEN3, qui n'a pas encore été
officiellement utilisée par ses partenaires (Hotbot, Snap, iWon), devrait
contenir 500 millions de pages (contre 110 pour l'ancien). Des tests effectués
par Searchengine Watch indique
qu'iWon utilise déjà cette index étendue. De fait, iWon donne des résultats
proches de Google pour ce qui concerne le nombre total de pages comptées
en anglais.
Altavista : 350 millions de pages.
Fastsearch : 340 millions de pages, avec comme objectif d'arriver
à 1 milliard d'ici la fin de l'année
Northern Light : 265 millions de pages.
Il est important de constater que les moteurs indexent une proportion notable
de l'univers qui nous intéresse (entre 25 et 50%) ce qui rend possible l'application
de notre méthodologie sans trop d'écueils sur le plan statistique2.
Comment les pages sont-elles indexées?
Il convient de noter que toutes les pages détectées par les moteurs de recherche
ne sont pas incluses dans l'index. La table suivante indique le nombre de
pages réellement présentes dans l'index de certains moteurs de recherche en
comparaison avec le volume annoncé de l'univers indexé3.
| |
PAGES ANALYSÉES
(millions)
|
PAGES INDEXÉES (millions)
|
|
Altavista
|
400
|
250
|
|
Fast
|
700
|
400
|
|
Excite
|
920
|
250
|
|
Inktomi
|
1000
|
110
|
Il est intéressant de comprendre comment la réduction est faite et en quoi
cela peut affecter la validité des résultats de notre étude. Deux approches
différentes ont été identifiées :
- Inktomi : Un index de base de 110 millions de pages sélectionnées
et classées à partir d'une source de 1 milliard de pages. Le critère de
sélection pour l'index de base est de considérer seulement les pages dont
l'URL est le plus fortement cité (c'est à dire les pages qui font l'objet
du plus grand nombre de liens externes). Cette technique permet de sélectionner
les pages les plus reconnues en les classant facilement par ordre de "célébrité",
tout en gardant un temps de réponse faible grâce à la taille réduite de
l'index de travail. Cette approche tout à fait respectable du point de
vue de l'objectif premier des moteurs est malheureusement disqualifiante
pour l'application de notre méthodologie car la répartition statistique
des pages est faussée par un algorithme qui favorise certaines pages de
manière non neutre sur le plan linguistique (les pages les plus populaires,
donc le plus souvent en anglais, auront une plus grande probabilité de
faire partie des 110 millions d'élus). Ce mécanisme montre clairement
ses conséquences pour le roumain (les termes roumains ont des scores anormalement
faible, trop souvent nul).
- Altavista, Excite, Fast, and Google : Un index plus grand avec
une sélection moins forte et surtout indépendante du contenu (on ne supprime
que les sites miroirs et ceux qui donnent des erreurs 4014
ou 4045 ). Avec cette
technique, les index sont plus larges; s'ils ne donnent pas forcement
les résultats les plus cohérents en terme de pertinence ils sont compatibles
avec notre méthodologie puisqu'ils ne devraient pas favoriser une langue
au détriment d'une autre. A noter que Google conserve une image des pages
au moment où elles ont été mises dans son index, ce qui permet de retrouver
l'information même quand la page indexée a été éliminée de la Toile.
Validation des moteurs de recherche en fonction de notre méthodologie
Altavista
Altavista est, depuis plusieurs années, l'un des moteurs de recherche les
plus utilisés sur le Web. Son index reste l'un des plus large; cependant l'utilisation
de ce moteur de recherche dans le cadre de notre étude n'est, une fois de
plus6, pas possible. En effet
:
- Altavista "tronque les résultats"7
. Cette disposition est prise par Altavista pour arriver réduire son temps
de réponse dans le cas où son serveur est surchargé (le moteur de recherche
peut arrêter de traiter une requête et ne fournir qu'un résultat partiel).
- Comme lors de l'étude précédente, il ne nous a pas été possible d'établir
la nature précise de la gestion des signes diacritiques; s'il y a une
logique elle ne nous est pas apparue et dans ces conditions il est impossible
de faire un travail sérieux.
- Les valeurs affichées pour les comptages changent de manière aléatoire;
par exemple on peut très bien avoir un nombre de pages différent pour
la même requête si on regarde les résultats de 1 à 10 ou de 11 à 20...
Infoseek
Infoseek a une taille d'index trop faible pour être utilisé dans le cadre
de notre méthodologie (on le constate sur les chiffres des pages en anglais
: 36 millions contre plus de 150 pour la plupart des autres moteurs). Cette
faiblesse d'indexage confère un avantage à l'anglais relativement aux autres
langues présentes sur l'Internet.
iWon
iWon utilise le même index que Hotbot (Inktomi), le moteur que nous avions
utilisé dans l'étude précédente. La technique de sélection de pages d'Inktomi
n'est pas compatible avec notre méthodologie comme nous l'avons expliqué.
Northern Light
Ce moteur n'a pu être utilisé pour notre étude parce qu'il ne traite pas les
signes diacritiques (en particulier, il n'interprète pas correctement les
signes utilisés par le roumain). En outre, il recherche les pluriels des termes
systématiquement quand on fait des recherches en anglais, mais pas dans les
autres langues.
Google
Ce moteur, qui prétend posséder l'index le plus large sur le Web, donne des résultats rapides. Dans un premier moment, il avait été écarté car, à l'instar d'Altavista, il tronquait ses résultats. Cet inconvénient ayant été corrigé, il a été sélectionné pour l'obtention des résultats finaux. Cependant lors du comptage de juin 2001, les signes diacritiques n'étant plus traités de façon satisfaisante, nous l'avons de nouveau écarté.
Fastsearch
Fastsearch, qui possède un des index les plus larges, donne des résultats rapides, ne tronque pas les résultats, ne restreint pas son index aux sites les plus populaires et traite les signes diacritiques de manière satisfaisante. Il a été ainsi le moteur sélectionné pour l'étude, en date de juin 2001.
Conclusion
Le moteur de recherche Fastsearch reste le seul, au moment des dernières mesures (juin 2001), permettant d'utiliser notre méthodologie pour la mesure de la répartition des langues sur la Toile et c'est ainsi de lui que procèdent les résulats finaux. Mais le fait que les chiffres produits par Fastsearch et Google jusqu'à janvier 2001 étaient statistiquement très proches (les intervalles de confiance se recoupant largement) a été un élément essentiel pour maintenir la confiance en la validité de notre méthodologie.
|
|
Espagnol
|
Français
|
Italien
|
Portugais
|
Roumain
|
Allemand
|
|
Fast
|
8,41%
|
7,33%
|
4,60%
|
3,95%
|
0,37%
|
8,47%
|
|
Google
|
7,86%
|
7,33%
|
4,65%
|
2,82%
|
0,27%
|
7,89%
|
|
ECART
|
6,5%
|
0,0%
|
1,1%
|
28,6%
|
27,0%
|
6,8%
|
|
COEFF. VARIANCE
|
0,84
|
0,55
|
0,90
|
1,06
|
1,13
|
0,65
|
|
CONFIANCE 90%
|
6,58-9,57
|
6,44-8,19
|
3,70-5,52
|
2,72-4,41
|
0,19-0,43
|
6,96-9,19
|
- Il semble que la moitié d'entre elles ne sont pas indexée
directement mais qu'elles font l'objet d'un algorithme original qui travaille
à partir du texte des liens vers ces pages. Nous ne disposons pas de précisions
suffisantes sur la nature de cet algorithme pour pouvoir en tirer des
conclusions, mais il semble qu'il n'y ai pas d'impact sur nos mesures.
- Toutefois, il n'est pas interdit de penser que pour un échantillon
de l'ordre de 25 à 50% de l'univers, il puisse exister un biais dans la
sélection de l'index qui favorise les langues les plus utilisées, et en
premier lieu l'anglais. En particulier, il est fortement probable que
les sites les plus nouveaux ne soient pas indexés aussi vite que les sites
les plus anciens et que cela représente un préjudice statistique pour
les langues jeunes sur l'Internet.
- Les chiffres présentés au paragraphe précédant sont de mars
2000 alors que ceux-ci sont de juillet 2000, ce qui explique les différences.
- C'est-à-dire une page à accès restreint, non disponible
pour grand public.
- C'est-à-dire une page inexistante dans un site référencé
correctement.
- Altavista avait été écarté lors de l'étude précédente pour les mêmes
raisons.
- C'est-à-dire qu'il ne prend pas en compte une partie des pages répondant au critère de recherche, ce qui produit une réduction de la valeur de comptage, laquelle ne correspond donc plus à la réalité.
|