4. Détail des résultats

4.1 Méthodologie Internet

L'évolution accélérée, depuis notre dernière étude, des moteurs de recherche qui indexent le contenu de la Toile a rendu nécessaire un travail supplémentaire et une remise en question de la méthodologie Internet utilisée pour obtenir nos résultats. Ce travail a connu trois étapes :

L'identification des principaux moteurs de recherche disponibles et la réalisation d'une présélection.
La vérification de leur comportement en ce qui concerne les comptages¹ .
La sélection des moteurs qui offrent les meilleures garanties pour l'application de notre méthodologie.

4.1.1 Identification des principaux moteurs de recherche disponibles sur le Web et présélection.

Lors de cette première étape ont été identifiés les moteurs suivants : Altavista, Excite, Fastsearch² , Google, Hotbot, Infoseek, iWon, Lycos, Northernlight, Yahoo et Webtop.

Webtop, le tout nouveau moteur, n'a pas encore été suffisamment testé pour que nous décidions de prendre le risque de l'incorporer. Hotbot, Lycos et Yahoo ont été écartés parce qu'ils sont en partenariat direct avec d'autres moteurs de recherche et fournissent les même résultats : Lycos utilise l'index de Fastsearch, et Yahoo celui de Google. Hotbot et iWon partagent le même index, que leur fournit Inktomi. Hotbot qui avait été notre choix lors de l'étude précédente n'a pu malheureusement être reconduit car il n'indique plus les résultats de comptages. Inktomi n'offre pas les services de son index directement aux utilisateurs : il reste donc iWon. Quant à Excite, il n'a pas pu être utilisé parce que, à l'instar de Hotbot, il ne fournissait pas de résultats de comptage au moment des mesures³.

Restaient donc en lice les six moteurs suivants : Altavista, Fastsearch, Google, Infoseek, iWon et Northern Light.

4.1.2 Validation des moteurs sélectionnés en fonction de la méthodologie employée

Une automatisation du processus de mesures dont les détails sont décrits dans l'annexe 5 a permis de produire des résultats pour les 6 moteurs de recherche présélectionnés, traitant chacun les quelque 1600 variantes des 57 termes par langue. Les résultats obtenus ont montré de fortes divergences entre les moteurs et ont produit de non moins fortes inquiétudes quant à la solidité de notre méthodologie. Il était clair qu'il fallait faire un effort d'analyse des moteurs de recherche utilisés pour expliquer ces divergences et savoir quels moteurs offraient les résultats les plus crédibles.

Plusieurs critères ont été définis pour valider l'utilisation d'un moteur de recherche pour l'étude présente. Un moteur de recherche, pour pouvoir servir d'outil pour l'application de notre méthodologie doit posséder les caractéristiques suivantes :

posséder un index suffisamment large par rapport à la taille de la Toile,
prendre en compte de manière cohérente les signes diacritiques,
donner des résultats cohérents en ce qui concerne le comptage des pages trouvées
disposer d'un index qui soit homogène par rapport aux langues

Les résultats obtenus pour chaque moteur, les détails de leur sélection ainsi que d'autres informations générales concernant les moteurs de recherche sont disponibles dans l'annexe 4.

4.1.3 Sélection finale des moteurs de recherche pour l'application de la méthodologie

De l'ensemble des moteurs présélectionnés, seulement deux, Google et Fastsearch, ont été retenus pour servir de support à une étude de la présence des différentes langues sur la Toile au moment des premières mesures, en août 2000. Dans ce premier moment, leurs résultats ont été utilisés conjointement⁴ pour l'obtention des résultats finaux. La proximité de chacun de leurs résultats, obtenus à l'aide de chacun des deux moteurs, à partir d'index et de techniques de recherche différentes nous a semblé, par ailleurs, un bon signe pour la validité de notre méthodologie :

	Anglais⁵	Espagnol	Français	Italien	Portugais	Roumain	Allemand⁶
Google	210	7,86%	7,33%	4,65%	2,82%	0,27%	7,89%
Fast	147	8,41%	7,33%	4,60%	3,95%	0,37%	8,47%

Or, lors du dernier comptage, fait en juin 2001, il s'est averé que Google ne traitait plus les signes diacritiques de façon satisfaisante, et nous avons dû laisser de côté ses résultats.

4.2 Méthodologie linguistique

La méthodologie linguistique reste inchangée par rapport à la version précédente de l'étude, mises à part l'introduction, à titre de premier pas exploratoire, des équivalences de l'allemand et la correction de certaines erreurs qui s'étaient glissées dans l'écriture des variantes⁷.

La sélection de 57 termes par langue faite en 1998 a été élargie à des équivalents allemands. Chaque terme, incluant toujours une certaine quantité de variantes (orthographiques, selon la présence ou non de signes diacritiques, synonymiques, dialectales, morphosyntaxiques…) a continué à être choisi pour qu'il puisse être considéré à la fois équivalent à ceux de son même numéro dans toutes les langues étudiées et distinctif, c'est à dire sans (ou presque sans) homographies interlinguistiques de certaines de ses variantes ou autres obstacles à l'équivalence. L'échantillon des 57 termes se trouve dans l'annexe 3.

4.2.1 Problèmes nouveaux posés par l'allemand

La formation des mots en allemand est très différente de celle des autres langues étudiées jusqu'à présent : les langues comme l'allemand réunissent dans un seul mot "composé" des racines qui, dans les formes équivalentes des autres langues étudiées (mis à part l'anglais, mais le problème est beaucoup moins important), se trouvent séparées dans des mots différents, constituant un syntagme.

Or les équivalences ayant été faites entre des mots non composés et en supposant qu'on allait chercher les mots séparés, sans contexte avant ou après, l'allemand est lourdement "pénalisé" puisque des formes très fréquentes telles que Ziegenkäse, équivalent de fromage de chèvre, sont systématiquement écartées. .

Un premier pas a été fait ici en ajoutant aux résultats obtenus selon la vieille méthodologie 30% de majoration, comme seuil probable minimum. Mais pour arriver à avoir des résultats aussi fiables que ceux qui ont été établis pour les autres langues, il faudra sans doute, dans un deuxième temps, envisager des recherches "par mot non isolé" (avec contexte avant et après le mot), tout en s'aidant par ailleurs, dans la mesure du possible, d'un facteur chiffré qui exprime la différence de quantité des mots entre les autres langues de l'étude et l'allemand. Ce facteur de correction est à trouver probablement dans les recherches faites dans les travaux sur des corpus parallèles interlinguistiques.

4.2.2 D'autres problématiques

Le travail linguistique devrait être compris en regardant l'annexe 3 et l'annexe 7. En ce qui concerne d'autres détails de la méthodologie linguistique, elle peut être consultée dans la version précédente, L4, 4.2. (http://www.francophonie.org/langues/L4.html ).

Rappelons le parti pris d'inclure toujours, avec les formes ayant des signes diacritiques (accents, etc.), des variantes sans diacritiques, très fréquentes sur la Toile. Dans le cas de l'allemand, on n'a pas tenu compte de la distinction morphosyntaxique majuscule / minuscule, qui est neutralisée par nos moteurs de recherche et ainsi non pertinente.

La décision était prise, par ailleurs, de ne pas inclure des formes de moins de 4 lettres pour éviter des homographies possibles (avec des sigles notamment, mais pas uniquement). Les homographies entre au moins deux des langues étudiées se sont montrées extrêmement fréquentes, notamment entre l'espagnol et le portugais, mais pas seulement et, bien entendu, il fallait éviter des coïncidences par emprunt. Parfois une homographie casuelle telle que celle des variantes allemandes montage / montages (lundi) avec les formes françaises s'est redoublée d'une homographie par emprunt, puisque l'expression française est empruntée par presque toutes les autres langues dans le domaine du cinéma.

4.3 Méthodologie statistique

Les intervalles de confiance à 90% et 99% des résultats ont été établis en employant la distribution T de Student, en prenant l'hypothèse d'une distribution de type Normale.

4.3.1. Résultats des mesures avec les moteurs de recherche préselectionnés

La table 16 (annexe 4) présente les résultats de chaque langue, obtenus en août 2000 par les 6 moteurs présélectionnés.

4.3.2 Calculs statistiques des résultats relatifs à l'anglais

Voici les pourcentages moyens représentant la présence des langues latines (et l'allemand) par rapport à l'anglais, � partir des mesures de juin 2001.

Table 7 : Détails des résultats statistiques

	Espagnol	Français	Italien	Portugais	Roumain	Allemand⁸
*Moyenne*	8,08%	7,32%	4,61%	3,29%	0,31%	10,5%
*Ecart type*	6,86%	4,02%	4,17%	3,50%	0,35%	6,94%
*Coefficient de variance*	0,84	0,55	0,90	1,06	1,13	0,65
*Intervalle de confiance 90%*	6,58-9,57	6,44-8,19	3,70-5,52	2,72-4,41	0,19-0,43	9,05-11,95

Le coefficient de variance est la racine carrée de l'écart-type au carré divisé par la moyenne au carré. Une valeur supérieure à 1 indique une forte dispersion donc une moyenne peu fiable. Une valeur inférieure à 1 indique une faible dispersion et donc un résultat d'autant plus fiable que la valeur est faible. L'intervalle de confiance sera donc d'autant plus étroit que la valeur du coefficient de variance est faible.

4.3.3 Calculs des résultats absolus

Selon les conclusions partielles établies dans le chapitre 3.2.1, on arrive à une présence absolue des langues étudiées de :

Anglais	52%
Espagnol	5,69%
Français	4,61%
Italien	3,06%
Portugais	2,81%
Roumain	0,17%
Allemand⁹	6,97%
Reste	24,96%

Ainsi l'espagnol, comme nous l'avions prévu lors de l'étude précédente, dépasse maintenant le français. Et l'allemand se place devant toutes les langues latines.

L'obtention de ces résultats est basée sur le calcul des résultats relatifs (chapitre précédent) ainsi que sur une approximation réaliste du poids des langues non étudiées décrite dans la ligne "reste".

L'approximation du poids des langues non étudiées a été réalisée à partir d'une mesure de la taille du domaine de chaque langue sur le moteur de recherche Fastsearch. Au moment où ces mesures ont été prises, Fastsearch présentait un index de 575 millions de pages réparties entre 31 langues. Pour savoir combien l'index contient de page dans chaque langue (selon l'algorithme de détection de Fast), il faut utiliser la section "advanced search" (recherche avancée) et faire une recherche, pour chaque langue, à partir de la technique que nous avions baptisée dans l'étude précédente "complément de l'ensemble vide" (recherche du nombre de pages qui ne contiennent pas un mot inexistant)¹⁰. On obtient la table 17 de l'annexe 6, qui donne une approximation du poids de chaque langue, déduite de l'algorithme de reconnaissance des langues du moteur de recherche, lequel, on s'en doute, n'est pas parfait. Par exemple faire une recherche sur la lettre "è" pour les sites en anglais donne (pour Google ou Fastsearch) un résultat de un million de sites mais surtout en thaïlandais, coréen, japonais, russe...

Une manière différente d'obtenir le poids des langues non étudiées est de constater son évolution dynamique entre L4 et L5. A partir du tableau des hypothèses de valeurs absolues décrites dans le chapitre 3.2.1, et des valeurs absolues des langues considérées dans l'étude réalisée en septembre 1998, on obtient le tableau suivant :

Table 8 : Hypothèse de progression du poids des langues étudiées

Lanues étudiées	Hypothèses du poids absolu pour L5			L4 Sept 1998	Evolution L4/L5
ANGLAIS	55,00%	50,00%	45,00%	75,00%	-26,67%	-33,33%	-40%
ESPAGNOL	6,02%	5,48%	4,93%	2,53%	137,94%	116,60%	94,86%
FRANÇAIS	4,87%	4,43%	3,99%	2,81%	73,31%	57,65%	41,99%
ITALIEN	3,23%	2,94%	2,65%	1,50%	115,33%	96,00%	76,67%
PORTUGAIS	2,97%	2,70%	2,43%	0,82%	262,20%	229,27%	196,34%
ROUMAIN	0,18%	0,16%	0,14%	0,15%	20,00%	6,67%	-6,67%
Reste pour les autres langues	20,35%	27,59%	34,83%	17,19%	18,38%	60,50%	102,62%

Une fois encore, c'est l'hypothèse d'un poids absolu de l'anglais proche de 50% qui est la plus réaliste.

En effet, une progression de moins de 18,38% des autres langues11 semble très insuffisante : cela représenterait une progression moins rapide que celle du roumain et 4 à 15 fois moins rapide que celle des autres langues latines étudiées. Une augmentation de 102% pour les langues non étudiées paraît par contre exagérée : cela traduirait une évolution mondiale plus rapide que l'évolution de la grande majorité des langues latines (portugais excepté). Une progression de l'ordre de 60% en moyenne pour les langues non étudiées les mettraient au niveau de progression du français et cela semble beaucoup plus crédible. Ce recoupement nous renforce donc dans notre hypothèse d'un résultat final proche de 50% comme valeur absolue de l'anglais.

4.4 Comparaison avec d'autres études

4.4.1 Comparaison avec les études précédentes

Les rapports anglais/français et français/espagnol ont évolué de la manière suivante entre la première étude et la présente¹³ :

Table 9 : Evolution des rapports entre le poids du français de l'anglais et de l'espagnol.

	Anglais/Français	Français/Espagnol	Anglais/Espagnol
Mars 1996 (L1)	21,91	2,40	52,58
Mars 1997 (L2)	19,99	1,92	38,38
Mars 1998 (L3)	17,60	1,33	23,32
Sept. 1998 (L4)	35,59	1,11	39,53
Août 2000 (L5)	13,66	0,91	12,38
Juin 2001 (L5)	11,28	0,81	9,14

Les chiffres en italiques (de L1 à L3), nous le rappelons, sont trop approximatifs pour être pris au sérieux. L'observation réelle a commencé à partir de L4.

4.4.2 Comparaison avec des �tudes similaires (Alis et Inktomi)

L'étude d'Alis n'a jamais été réalisée de nouveau, depuis 1998 : nous maintenons donc l'analyse faite à l'occasion de L4. Par contre, Inktomi a publié des résultats qui ont eu un grand retentissement dans l'Internet et sont maintenant utilisés comme source officielle par de nombreux rapports..

Table 10 : Résultats de l'étude d'Inktomi (février 2000)

LANGUE	PROPORTION (%)
Anglais	86,54
Allemand	5,83
Français	2,36
Italien	1,55
Espagnol	1,23
Portugais	0,75
Hollandais	0,54
Finnoiss	0,50
Suédois	0,36
Japonais	0,34

Ces chiffres contribuent à perpétuer la vision erronée que l'anglais continue de représenter la langue de plus de 80% des pages Web. Pourtant, il est facile de découvrir une aberration dans ces résultats, dans leur présentation ou dans leur interprétation...

En effet, le pourcentage annoncé pour l'anglais (86%) ne l'est pas par rapport à toutes les langues mais seulement par rapport aux 10 langues citées dans le tableau, puisque le total des pourcentages pour les 10 langues arrive à 100% ! Si nous prenons l'hypothèse qu'il reste 30% de pages Web pour les langues non citées, le total réel de l'anglais serait alors de : 86,54% x (100-30) = 60,58%!

En dehors de cet évident lapsus qui fait perdre la signification des résultats absolus (mais n'empêche pas la majorité des bureaux de marketing de l'Internet de reprendre ces chiffres absurdes...) il reste intéressant de comparer nos résultats, basés sur un échantillon de termes dont les critères de sélection linguistique sont présentés dans nos rapports, avec les algorithmes de reconnaissance des langues utilisés par les différents moteurs, dont le mécanisme reste voilé. Voir par exemple, la table 17 en annexe 6 qui montre les chiffres dérivés du moteur Fastsearch et les compare avec ceux de notre étude.

Jusqu'à preuve du contraire, nous devons considérer notre méthode plus rigoureuse sur le plan méthodologique et conclure que les algorithmes de reconnaissance des langues sur l'Internet ont tous la fâcheuse tendance à surévaluer les chiffres de l'anglais.

Retour en haut de la page

Page précédente Page suivante

Il faut bien comprendre que les résultats de comptages sont tout à fait annexes à la fonction principale des moteurs qui est d'identifier les pages comportant les termes de la recherche, dans un ordre de pertinence maximale. Certains moteurs fournissent les valeurs du total de nombre de pages qui répondent au critère de recherche, d'autres pas. Dans tous les cas il faut prendre beaucoup de précautions pour vérifier la fiabilité des données de comptages fournies.
Connu également sous le nom de Alltheweb.
Ce défaut a été corrigé depuis, les résultats d'Excite seront donc pris en compte lors de la prochaine version de cette étude, si toutefois il maintient cette fonction.
Pour les calculs statistiques nous avons concaténé les résultats des deux moteurs pour obtenir une série plus longue de valeurs de notre variable aléatoire.
Millions de pages en anglais.
Il s'agit là des résultats bruts, sans la correction à 30%.
Il s'agit d'erreurs mineures qui n'ont pas provoqué un écart notable par rapport aux résultats publiés lors de l'étude précédente. Le détail en annexe 3.
Résultats majorés à 30%
Résultats majorés à 30%
L'argument de la recherche est, par exemple, < - "hgavdhjgduhgedujhgsdfyuhg">.
Les "autres langues" recouvrent des réalités différentes, des langues scandinaves et asiatiques à forte progression aux langues moins diffusées, à progression probablement plus lente.
Il faut prendre cette progression avec la plus grande réserve puisque les chiffres de L1 à L3 ne présentaient pas les caractéristiques de rigueur linguistique obtenues à partir de L4.