L3: La troisième étude sur les langues et l'Internet

MENU

INTRODUCTION

QUOI DE NEUF?
ALIS TECHNOLOGIES
ALTA VISTA
PLACE DES DIACRITIQUES

RÉSULTATS

COMMENTAIRES

TENDANCES

CONCLUSION

PONDÉRATION COMPARATIVE DE L'APPARITION
D'UNE SÉLECTION DE MOTS DANS LES PAGES W3 DE L'INTERNET

Présentation à la conférence Visionarios, Caracas, 22-24 avril 98
Auteur : Daniel Pimienta
Remerciements à Marcelo Sztrum, Catherine Dhaussy et Daniel Prado pour leurs apports.

Introduction

Pour cette troisième mise à jour, notre étude doit faire face à un certain nombre de nouveaux paramètres liés à l'utilisation de l'outil de mesure AltaVista et annonce ainsi la transition vers une nouvelle étude beaucoup plus solide sur le plan méthodologique.

Ce troisième résultat, sur le fond, montre que le français continue de progresser plus vite que l'anglais, avec cependant un maintien de la tendance relativement lente de 1997. Quant à l'espagnol, il continue sa progression rapide et se rapproche encore plus du français. L'avantage du français sur l'espagnol était passé de 140% en 1996 à 92% en 97 et il se réduit maintenant à 39%. Le jeu de l'extrapolation montre un rapport de 1 à 9 entre français et anglais pour l'an 2000 et un rapport d'égalité entre l'espagnol sur le français à la même époque...

Quoi de neuf sur le front de la mesure de la présence des langues dans l'Internet ?

ALIS TECHNOLOGIES
[RETOUR EN HAUT DE LA PAGE]

Tout d'abord une étude d'Alis Technologies avec le soutien de l'Internet Society : "Palmarès des langues de la toile". L'étude s'auto-proclame "la première étude d'envergure" et annonce "une méthode rigoureuse d'exploration du web".

Elle est fondée sur une méthodologie très différente de la nôtre où une grande place est faite au traitement informatique. La méthodologie d'Alis Technology repose en effet sur un programme de reconnaissance automatique de plusieurs langues (17) dans l'espace web. Le protocole de mesure consiste à tirer au hasard 60.000 sites Internet à partir de leur numéro de IP (*), à valider un sous-ensemble valide apte pour la mesure de 8.000 sites web et à y appliquer le programme de reconnaissance. Ensuite, Alis applique sur le résultat obtenu des corrections dont elle ne précise pas la nature. C'est une procédure très intéressante puisqu'elle est automatisable et reproductible à volonté, et qu'elle peut s'appliquer simultanément à plusieurs langues.

Les résultats montrent, par rapport à notre travail, une présence beaucoup plus forte de l'anglais (82% contre 70%). Le rapport français/espagnol reste très proche de nos résultats.

La différence principale entre les deux approches réside dans l'ambition affichée : s'il n'y a pas d'autre ambition dans l'étude de Funredes que de fournir une estimation très approximative, en revanche Alis affiche de fortes prétentions quant à la validité de ses résultats.

Cela nous incite bien sûr à regarder de plus près la méthodologie d'Alis.

1) Il ne nous est pas possible d'apporter de jugement sur la valeur du programme de reconnaissance des langues. Seuls des recoupements sur les résultats obtenus par différentes méthodes pourront permettre de valider les résultats de ce programme.

2) En revanche, sur le plan statistique, la méthode nous paraît sujette à caution. Pour quelle raison un échantillon de 8.000 pages web prises au hasard parmi un univers supérieur à 100 millions de pages fournirait-il une base sérieuse pour l'extrapolation ? Certes les instituts de sondage ont montré leur incroyable capacité pour extrapoler les intentions de vote avec une précision remarquable à partir d'échantillons de 2.000 votants pour un vote de 50 millions. Mais pour ce faire, leur échantillon n'est pas constitué par le pur hasard, bien au contraire ! Il est normé, c'est-à-dire qu'il est constitué d'éléments dont les proportions de certains paramètres (sociaux, économiques, géographiques...) sont très précisément calibrées.

3) L'inconvénient mentionné au point 2 aurait pu être éliminé si l'étude avait répété plusieurs dizaines de fois l'opération et publié la moyenne des résultats (surtout si la variance était très faible). Cela aurait pu crédibiliser le résultat. Il semble que pour le moment les nombreuses vérifications "à la main" du processus automatique rendent rédhibitoire cette approche. Pourtant, la mesure de seulement 3 échantillons distincts aurait pu nous rassurer (ou nous inquiéter) sur l'argument du point 2.

4) L'ajustement correctif des résultats reste très mystérieux (quoiqu'il semble que cela reste une prérogative des sondeurs :-)...)

5) Enfin, il n'est pas dans l'ambition d'Alis de mesurer, pour le moment, autre chose que la présence des langues dans l'espace web. Pas question de mesurer d'autres espaces ni, encore moins, de s'approcher de la mesure culturelle qui constitue en fait l'essence de notre démarche.

En conclusion, les limites actuelles de l'étude d'Alis nous encouragent à poursuivre notre approche, voire même à la rendre plus systématique sur le plan de la linguistique de façon à apporter une approche plus crédible à la mesure des langues dans l'Internet.

(*): Les numéros IP (IP pour Internet Protocol) identifient de manière unique chacun des systèmes connectés à l'Internet et possèdent une structure standardisée en quatre champs, d'une valeur de 0 à 999, séparés par des points. Les noms des systèmes (ou domaines) sont traduits en numéros IP par une méthode dite de "service de domaine". Ainsi le numéro IP de <funredes.org> est 205.160.164.9.

ALTAVISTA
[RETOUR EN HAUT DE LA PAGE]

Le puissant moteur de recherche de Digital Corp. apporte des nouveautés : il intègre maintenant les diacritiques (accents et autres caractères dits "spéciaux", par rapport à l'anglais), et, comme Alis, il introduit un facteur de reconnaissance des langues (Alis reconnaît 17 langues et AltaVista se permet d'identifier des pages web parmi 25 langues différentes). À première vue, les algorithmes sont différents.

En revanche, la taille de l'univers considéré par AltaVista n'a pas vraiment évolué et reste de l'ordre de 100 millions de sites web pour un univers en très forte croissance exponentielle. En proportion relative, il est probable que AltaVista ait dû passer d'une couverture de l'ordre de 70% à une couverture beaucoup plus réduite, peut-être de l'ordre de 20%. Cela reste un chiffre suffisant pour extrapoler nos résultats ; en revanche, il est légitime de se poser la question de savoir si cette approche ne favorise pas les sites plus anciens et donc plutôt en anglais.

L'étude des évolutions du moteur AltaVista nous réserve de grandes surprises, et, nous allons le voir, va nous obliger à devoir considérer d'autres moteurs pour poursuivre notre effort.

Place des diacritiques
[RETOUR EN HAUT DE LA PAGE]

Quelques recoupements montrent que la recherche sans diacritiques inclut toutes les combinaisons du mot indiqué avec les diacritiques. Ainsi la recherche de "peche" inclut "peche", "pêche", "pèche", "péché", et toutes fautes d'orthographe possibles comme "péche" ou "pëche". Cela va nous encourager à utiliser la recherche sans diacritiques pour les comparaisons avec l'anglais, mais cela exige également beaucoup de vigilance dans le choix des mots.

Recherche par langue

Dans l'état actuel d'AltaVista, il existe un phénomène incohérent qui va nous interdire d'utiliser cette méthode pour le comptage. Derrière cette apparente incohérence, il est possible que se trouve une logique, mais cette logique n'est pas compatible avec l'objectif de comptage. De quoi s'agit-il ?

Le résultat "toutes langues" (ANY) semble, dans certains cas, correspondre à la somme de tous les résultats pour chaque langue ou bien il est supérieur, ce qui est normal, puisque toutes les langues ne sont pas comptabilisées et aussi parce qu'il existe un bon nombre de pages multilingues. Mais, dans d'autres cas (la majorité des mots de notre échantillon), ce résultat est inférieur à celui de la mesure en anglais (et il est alors difficile de l'interpréter)!

Quelques exemples suivent, pour les mots ou expressions: FUNREDES, FUNDACION REDES Y DESARROLLO, iberian, INTERNET, WEB (EN=anglais, FR=français, ES=espagnol, DE=allemand):

FUNREDES	ANY	EN	FR	ES	DE
# DOCUMENTS	572	294	85	164	4
# OCCURRENCES	4043	4043	4043	4043	4043
"fundacion redes y desarrollo"
# DOCUMENTS	156	26	24	91	0
# OCCURRENCES	200	31	24	100	0
IBERIAN	ANY	EN	FR	ES	DE
# DOCUMENTS	11094	10266	25	214	33
# OCCURRENCES	18946	18946	18946	18946	18946
INTERNET
# DOCUMENTS	4846307	7794545	314441	264538
# OCCURRENCES	30098345	30098345	30098345	30098345
WEB
# DOCUMENTS	5093017	10397446	244279	191402
# OCCURRENCES	35497288	35497288	35497288	35497288

Il semble que pour les mots courants en anglais (dans le dictionnaire d'AltaVista ?) le résultat soit systématiquement avec une valeur "toute langue" inférieure à la valeur anglaise (mais que signifie donc cette valeur ?) et que pour les mots composés ou non anglais la valeur "toute langue"soit proche de la somme des valeurs par langue. Nous avons demandé des éclaircissements à AltaVista et attendons une réponse.

AltaVista présente deux résultats de comptage. Le premier, en haut de la page, est le nombre total de pages de son échantillon mentionnant le mot recherché ("documents"). Le second, en bas de la page, indique le nombre de fois que le mot recherché apparaît dans les pages de l'échantillon ("occurences"). Là aussi, il y a une incohérence: parfois le second est le même dans chaque langue. Parfois, le résultat est différent selon la langue (apparemment pour les expressions composées de plusieurs mots- comme "fundacion redes y desarrollo").

Si cette anomalie représente un obstacle pour nos mesures, il est en revanche possible, avec un peu d'astuce, d'établir une comparaison entre l'algorithme de Alis et celui d'AltaVista. En effet, si, avec AltaVista, on recherche l'ensemble des documents comportant tous les mots sauf un mot probablement inexistant (en écrivant par exemple l'expression suivante pour la recherche: " - qwxk49fnr8e4"), le résultat semble être le nombre total de pages que l'algorithme d'AltaVista considère appartenir à une langue donnée. Bien sûr, avec l'option "toutes langues", nous obtenons la mesure de l'univers total des pages de AltaVista : un peu plus de 100 millions à la date de la mesure. Des recoupements avec des mots ou combinaisons très fréquentes (par exemple "de+il" en français) confirment la validité du résultat. À ce propos, nos expériences montrent que si la mesure de mots courts très fréquents a pu donner des résultats apparemment probants dans le passé, la méthode aujourd'hui conduit à des valeurs peu fiables.

Tableau comparatif AltaVista/Alis

		ALTAVISTA		ALIS
		COMPTAGE GLOBAL		RÉSULTATS
ANY	107958869	% SANS	% AVEC()**	SANS	AVEC
		CORRECTION		CORRECTION
ANGLAIS	70065677	64.90%	76.35%	84.00	82.30
JAPONAIS	4369675	4.05%	4.76%	3.10	1.6
ALLEMAND	4009554	3.71%	4.37%	4.50	4.00
FRANÇAIS	1951446	1.81%	2.13%	1.8	1.5
ESPAGNOL	1495195	1.38%	1.63%	1.20	1.10
ITALIEN	1490109	1.38%	1.62%	1.00	0.80
PORTUGAIS	905676	0.84%	0.99%	0.70	0.70
HOLLANDAIS	849045	0.79%	0.93%	0.6	0.4
SUÉDOIS	804266	0.74%	0.88%	1.10	0.60
CHINOIS	742741	0.69%	0.81%
RUSSE	499447	0.46%	0.54%	0.30	0.10
TCHEQUE	469659	0.44%	0.51%	0.30	0.30
FINLANDAIS	411951	0.38%	0.45%	0.40	0.30
NORVÉGIEN	336751	0.31%	0.37%	0.60	0.30
DANOIS	300481	0.28%	0.33%	0.30	0.30
POLONAIS	280975	0.26%	0.31%
CORÉEN	215064	0.20%	0.23%
HONGROIS	197043	0.18%	0.21%
GREC	83780	0.08%	0.09%
ESTONIEN	78955	0.07%	0.09%
HÉBREU	48843	0.05%	0.05%
ISLANDAIS	34749	0.03%	0.04%
ROUMAIN	28052	0.03%	0.03%
LATVIEN	22616	0.02%	0.02%
LITHUANEN	20539	0.02%	0.02%

LE RESTE	18246580	16.90%		Sites multilingues
LE RESTE CORRIGÉ (**)	2052750	2.24%		15%

(**) Une correction est nécessaire pour prendre en compte la différence entre le total et la somme des langues mesurées. Que représente cette valeur de près de 17% ? En théorie, elle pourrait représenter la somme des valeurs des langues non mesurées. Mais ce pourcentage est beaucoup trop grand pour cela. Peut-être, en plus des valeurs des langues non mesurées se trouvent comptabilisés les sites web multilingues que l'algorithme n'a pas su classifier. Le fait que le nombre soit si imposant nous incite à penser que les sites multilingues ne sont pas comptabilisés dans plusieurs langues (sinon le total pourrait être inférieur à la somme des comptages par langue). Nous prendrons donc l'hypothèse que "le reste" représente le comptage des sites multilingues et des sites dans les langues non reconnues par l'algorithme... ainsi que les sites non reconnus par l'algorithme quoique rédigés dans une des langues "reconnues" (les erreurs de l'algorithme), sans oublier les pages qui présentent des symboles non rattachables à une langue (images, formules...). Nous prenons aussi l'hypothèse (probablement fausse!) que les erreurs sont également réparties selon les langues et nous allons donc les ignorer. Il nous reste à fixer un paramètre pour répartir les sites multi-lingues et les autres langues. Après plusieurs essais, nous choissisons le couple 15% de sites multilingues (ou neutres sur le plan de la langue) et 2.24% de sites dans les autres langues (par exemple 100 langues à 0.02%), parce qu'il nous paraît le plus vraisemblable.

Nous voyons que la comparaison montre une valeur plus importante pour l'anglais avec la méthode d'Alis qu'avec la méthode que nous qualifions de "complément de l'ensemble vide" dans AltaVista. Or, précisément, nous le verrons plus loin, notre méthode de comptage par mots nous fait soupçonner que le comptage d'AltaVista, lui aussi, avantage l'anglais. Cela fait poser question sur le résultat d'Alis Technologies et justifie une étude avec des critères linguistiques plus élaborés.

La comparaison entre les trois méthodes donne le résultat suivant :

	EN/FR	FR/ES
MÉTHODE COMPLÉMENT DE L'ENSEMBLE VIDE	35.90	1.31
MÉTHODE ALIS	46.67	1.36
MÉTHODE FUNREDES	17.60	1.33

MESURES DE FÉVRIER 1998
[RETOUR EN HAUT DE LA PAGE]

Les nouveautés d'AltaVista et les anomalies constatées nous ont amenés à procéder à des recoupements avec d'autres moteurs de recherche. C'est ainsi que nous avons procédé à un jeu de 5 mesures :

M1 : Avec Hotbot (additionnant avec et sans diacritiques)

M2 : Avec Excite (additionnant avec et sans diacritiques)

M3 : Avec AltaVista toutes langues sans diacritiques

M4 : Avec AltaVista par langue sans diacritiques

M5 : La somme des deux résultats précédents

Nous pensions, pour effectuer la comparaison avec nos résultats des années précédentes, que l'indicateur M5 était, malgré la réserve mentionnée, le plus apte. Mais les résultats de corrélation nous conduisent à changer d'avis et à prendre l'indicateur M3 qui est indépendant de l'algorithme de langue.

SYNTHÈSE DES RÉSULTATS

	ANGLAIS	FRANÇAIS	ESPAGNOL	EN/FR	FR/ES	EN/ES
M1: HOTBOT FÉVRIER 98	100221545	6090080	3230690	16.46	1.89	31.02
M2: EXCITE FÉVRIER 98	23689345	1430583	910317	16.56	1.57	26.02
M3: ALTAVISTA TOUTES LANGUES 2/98	26017027	1478396	1115708	17.60	1.33	23.32
M4: ALTAVISTA PAR LANGUE 2/98	70718558	2946712	2058398	24.00	1.43	34.36
M5: M3+M4	96735585	4425108	3174106	21.86	1.39	30.48

COMMENTAIRES
[RETOUR EN HAUT DE LA PAGE]

Il existe une certaine cohérence entre les résultats des trois moteurs de recherche mais il y a des écarts. Il semble qu'AltaVista favorise moins l'anglais que les deux autres. L'introduction de la reconnaissance des langues peut-elle expliquer les différences? Probablement. Quelle valeur peut-on apporter maintenant à l'étude de tendance? Il nous reste quelques doutes et cela aussi justifie la reprise de cette étude avec une méthodologie plus solide sur les plans linguistique et technique.

TENDANCES
[RETOUR EN HAUT DE LA PAGE]

	EN/FR	FR/ES
MOYENNE MARS 1996	21.91	2.40
MOYENNE MARS 1997	19.99	1.92
MOYENNE FÉVRIER 1998	17.60	1.33

Les progressions sont quasiment linéaires et l'extrapolation montre un rapport anglais/français égal à 1 en 2006 et un rapport français/espagnol égal à 1 en 2000.

MESURES DES DIACRITIQUES

Un résultat intéressant pour les partisans de l'utilisation correcte des langues dans le réseau est une mesure du rapport entre écriture des mots avec et sans diacritiques. Les résultats sont stables selon les moteurs.

	Français	Espagnol
Pourcentage de sites sans diacritiques (moyenne)	20%	50%

CONCLUSION

Le moment est venu de consolider la méthode avec l'appui de linguistes. En collaboration avec l'Union Latine et son équipe de professionels de la langue, Funredes a entrepris de généraliser l'étude à trois autres langues latines en lui apportant une réelle rigueur sur le plan de la méthodologie linguistique. Un échantillon de mots à mesurer qui répondent aux meilleurs critères linguistiques est en train d'être élaboré (les obstacles sont nombreux !) et servira de base à une mesure de la présence des six langues suivantes: anglais, espagnol, français, italien, portugais et roumain. Les résultats seront publiés dans quelques semaines.

PONDÉRATION COMPARATIVE DE L'APPARITION D'UNE SÉLECTION DE MOTS DANS LES PAGES W3 DE L'INTERNET

Introduction

Quoi de neuf sur le front de la mesure de la présence des langues dans l'Internet ?

Place des diacritiques [RETOUR EN HAUT DE LA PAGE]

Recherche par langue

PONDÉRATION COMPARATIVE DE L'APPARITION
D'UNE SÉLECTION DE MOTS DANS LES PAGES W3 DE L'INTERNET

Place des diacritiques
[RETOUR EN HAUT DE LA PAGE]