IntroductionPour cette troisième mise à jour, notre étude doit faire face à un certain nombre de nouveaux paramètres liés à l'utilisation de l'outil de mesure AltaVista et annonce ainsi la transition vers une nouvelle étude beaucoup plus solide sur le plan méthodologique. Ce troisième résultat, sur le fond, montre que le français continue de progresser plus vite que l'anglais, avec cependant un maintien de la tendance relativement lente de 1997. Quant à l'espagnol, il continue sa progression rapide et se rapproche encore plus du français. L'avantage du français sur l'espagnol était passé de 140% en 1996 à 92% en 97 et il se réduit maintenant à 39%. Le jeu de l'extrapolation montre un rapport de 1 à 9 entre français et anglais pour l'an 2000 et un rapport d'égalité entre l'espagnol sur le français à la même époque... Quoi de neuf sur le front de la mesure de la présence des langues dans l'Internet ?ALIS TECHNOLOGIES Tout d'abord une étude d'Alis Technologies avec le soutien de l'Internet Society : "Palmarès des langues de la toile". L'étude s'auto-proclame "la première étude d'envergure" et annonce "une méthode rigoureuse d'exploration du web". Elle est fondée sur une méthodologie très différente de la nôtre où une grande place est faite au traitement informatique. La méthodologie d'Alis Technology repose en effet sur un programme de reconnaissance automatique de plusieurs langues (17) dans l'espace web. Le protocole de mesure consiste à tirer au hasard 60.000 sites Internet à partir de leur numéro de IP (*), à valider un sous-ensemble valide apte pour la mesure de 8.000 sites web et à y appliquer le programme de reconnaissance. Ensuite, Alis applique sur le résultat obtenu des corrections dont elle ne précise pas la nature. C'est une procédure très intéressante puisqu'elle est automatisable et reproductible à volonté, et qu'elle peut s'appliquer simultanément à plusieurs langues. Les résultats montrent, par rapport à notre travail, une présence beaucoup plus forte de l'anglais (82% contre 70%). Le rapport français/espagnol reste très proche de nos résultats. La différence principale entre les deux approches réside dans l'ambition affichée : s'il n'y a pas d'autre ambition dans l'étude de Funredes que de fournir une estimation très approximative, en revanche Alis affiche de fortes prétentions quant à la validité de ses résultats. Cela nous incite bien sûr à regarder de plus près la méthodologie d'Alis. 1) Il ne nous est pas possible d'apporter de jugement sur la valeur du programme de reconnaissance des langues. Seuls des recoupements sur les résultats obtenus par différentes méthodes pourront permettre de valider les résultats de ce programme. 2) En revanche, sur le plan statistique, la méthode nous paraît sujette à caution. Pour quelle raison un échantillon de 8.000 pages web prises au hasard parmi un univers supérieur à 100 millions de pages fournirait-il une base sérieuse pour l'extrapolation ? Certes les instituts de sondage ont montré leur incroyable capacité pour extrapoler les intentions de vote avec une précision remarquable à partir d'échantillons de 2.000 votants pour un vote de 50 millions. Mais pour ce faire, leur échantillon n'est pas constitué par le pur hasard, bien au contraire ! Il est normé, c'est-à-dire qu'il est constitué d'éléments dont les proportions de certains paramètres (sociaux, économiques, géographiques...) sont très précisément calibrées. 3) L'inconvénient mentionné au point 2 aurait pu être éliminé si l'étude avait répété plusieurs dizaines de fois l'opération et publié la moyenne des résultats (surtout si la variance était très faible). Cela aurait pu crédibiliser le résultat. Il semble que pour le moment les nombreuses vérifications "à la main" du processus automatique rendent rédhibitoire cette approche. Pourtant, la mesure de seulement 3 échantillons distincts aurait pu nous rassurer (ou nous inquiéter) sur l'argument du point 2. 4) L'ajustement correctif des résultats reste très mystérieux (quoiqu'il semble que cela reste une prérogative des sondeurs :-)...) 5) Enfin, il n'est pas dans l'ambition d'Alis de mesurer, pour le moment, autre chose que la présence des langues dans l'espace web. Pas question de mesurer d'autres espaces ni, encore moins, de s'approcher de la mesure culturelle qui constitue en fait l'essence de notre démarche. En conclusion, les limites actuelles de l'étude d'Alis nous encouragent à poursuivre notre approche, voire même à la rendre plus systématique sur le plan de la linguistique de façon à apporter une approche plus crédible à la mesure des langues dans l'Internet.
(*): Les numéros IP (IP pour Internet Protocol) identifient de manière unique chacun des systèmes connectés à l'Internet et possèdent une structure standardisée en quatre champs, d'une valeur de 0 à 999, séparés par des points. Les noms des systèmes (ou domaines) sont traduits en numéros IP par une méthode dite de "service de domaine". Ainsi le numéro IP de <funredes.org> est 205.160.164.9.
ALTAVISTA Le puissant moteur de recherche de Digital Corp. apporte des nouveautés : il intègre maintenant les diacritiques (accents et autres caractères dits "spéciaux", par rapport à l'anglais), et, comme Alis, il introduit un facteur de reconnaissance des langues (Alis reconnaît 17 langues et AltaVista se permet d'identifier des pages web parmi 25 langues différentes). À première vue, les algorithmes sont différents. En revanche, la taille de l'univers considéré par AltaVista n'a pas vraiment évolué et reste de l'ordre de 100 millions de sites web pour un univers en très forte croissance exponentielle. En proportion relative, il est probable que AltaVista ait dû passer d'une couverture de l'ordre de 70% à une couverture beaucoup plus réduite, peut-être de l'ordre de 20%. Cela reste un chiffre suffisant pour extrapoler nos résultats ; en revanche, il est légitime de se poser la question de savoir si cette approche ne favorise pas les sites plus anciens et donc plutôt en anglais. L'étude des évolutions du moteur AltaVista nous réserve de grandes surprises, et, nous allons le voir, va nous obliger à devoir considérer d'autres moteurs pour poursuivre notre effort. Place des diacritiques
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| FUNREDES | ANY | EN | FR | ES | DE |
| # DOCUMENTS | 572 | 294 | 85 | 164 | 4 |
| # OCCURRENCES | 4043 | 4043 | 4043 | 4043 | 4043 |
| "fundacion redes y desarrollo" | |||||
| # DOCUMENTS | 156 | 26 | 24 | 91 | 0 |
| # OCCURRENCES | 200 | 31 | 24 | 100 | 0 |
| IBERIAN | ANY | EN | FR | ES | DE |
| # DOCUMENTS | 11094 | 10266 | 25 | 214 | 33 |
| # OCCURRENCES | 18946 | 18946 | 18946 | 18946 | 18946 |
| INTERNET | |||||
| # DOCUMENTS | 4846307 | 7794545 | 314441 | 264538 | |
| # OCCURRENCES | 30098345 | 30098345 | 30098345 | 30098345 | |
| WEB | |||||
| # DOCUMENTS | 5093017 | 10397446 | 244279 | 191402 | |
| # OCCURRENCES | 35497288 | 35497288 | 35497288 | 35497288 |
Il semble que pour les mots courants en anglais (dans le dictionnaire d'AltaVista ?) le résultat soit systématiquement avec une valeur "toute langue" inférieure à la valeur anglaise (mais que signifie donc cette valeur ?) et que pour les mots composés ou non anglais la valeur "toute langue"soit proche de la somme des valeurs par langue. Nous avons demandé des éclaircissements à AltaVista et attendons une réponse.
AltaVista présente deux résultats de comptage. Le premier, en haut de la page, est le nombre total de pages de son échantillon mentionnant le mot recherché ("documents"). Le second, en bas de la page, indique le nombre de fois que le mot recherché apparaît dans les pages de l'échantillon ("occurences"). Là aussi, il y a une incohérence: parfois le second est le même dans chaque langue. Parfois, le résultat est différent selon la langue (apparemment pour les expressions composées de plusieurs mots- comme "fundacion redes y desarrollo").
Si cette anomalie représente un obstacle pour nos mesures, il est en revanche possible, avec un peu d'astuce, d'établir une comparaison entre l'algorithme de Alis et celui d'AltaVista. En effet, si, avec AltaVista, on recherche l'ensemble des documents comportant tous les mots sauf un mot probablement inexistant (en écrivant par exemple l'expression suivante pour la recherche: " - qwxk49fnr8e4"), le résultat semble être le nombre total de pages que l'algorithme d'AltaVista considère appartenir à une langue donnée. Bien sûr, avec l'option "toutes langues", nous obtenons la mesure de l'univers total des pages de AltaVista : un peu plus de 100 millions à la date de la mesure. Des recoupements avec des mots ou combinaisons très fréquentes (par exemple "de+il" en français) confirment la validité du résultat. À ce propos, nos expériences montrent que si la mesure de mots courts très fréquents a pu donner des résultats apparemment probants dans le passé, la méthode aujourd'hui conduit à des valeurs peu fiables.
Tableau comparatif AltaVista/Alis
| ALTAVISTA | ALIS | ||||
| COMPTAGE GLOBAL | RÉSULTATS | ||||
| ANY | 107958869 | % SANS | % AVEC(**) | SANS | AVEC |
| CORRECTION | CORRECTION | ||||
| ANGLAIS | 70065677 | 64.90% | 76.35% | 84.00 | 82.30 |
| JAPONAIS | 4369675 | 4.05% | 4.76% | 3.10 | 1.6 |
| ALLEMAND | 4009554 | 3.71% | 4.37% | 4.50 | 4.00 |
| FRANÇAIS | 1951446 | 1.81% | 2.13% | 1.8 | 1.5 |
| ESPAGNOL | 1495195 | 1.38% | 1.63% | 1.20 | 1.10 |
| ITALIEN | 1490109 | 1.38% | 1.62% | 1.00 | 0.80 |
| PORTUGAIS | 905676 | 0.84% | 0.99% | 0.70 | 0.70 |
| HOLLANDAIS | 849045 | 0.79% | 0.93% | 0.6 | 0.4 |
| SUÉDOIS | 804266 | 0.74% | 0.88% | 1.10 | 0.60 |
| CHINOIS | 742741 | 0.69% | 0.81% | ||
| RUSSE | 499447 | 0.46% | 0.54% | 0.30 | 0.10 |
| TCHEQUE | 469659 | 0.44% | 0.51% | 0.30 | 0.30 |
| FINLANDAIS | 411951 | 0.38% | 0.45% | 0.40 | 0.30 |
| NORVÉGIEN | 336751 | 0.31% | 0.37% | 0.60 | 0.30 |
| DANOIS | 300481 | 0.28% | 0.33% | 0.30 | 0.30 |
| POLONAIS | 280975 | 0.26% | 0.31% | ||
| CORÉEN | 215064 | 0.20% | 0.23% | ||
| HONGROIS | 197043 | 0.18% | 0.21% | ||
| GREC | 83780 | 0.08% | 0.09% | ||
| ESTONIEN | 78955 | 0.07% | 0.09% | ||
| HÉBREU | 48843 | 0.05% | 0.05% | ||
| ISLANDAIS | 34749 | 0.03% | 0.04% | ||
| ROUMAIN | 28052 | 0.03% | 0.03% | ||
| LATVIEN | 22616 | 0.02% | 0.02% | ||
| LITHUANEN | 20539 | 0.02% | 0.02% | ||
| LE RESTE | 18246580 | 16.90% | Sites multilingues | ||
| LE RESTE CORRIGÉ (**) | 2052750 | 2.24% | 15% | ||
(**) Une correction est nécessaire pour prendre en compte la différence entre le total et la somme des langues mesurées. Que représente cette valeur de près de 17% ? En théorie, elle pourrait représenter la somme des valeurs des langues non mesurées. Mais ce pourcentage est beaucoup trop grand pour cela. Peut-être, en plus des valeurs des langues non mesurées se trouvent comptabilisés les sites web multilingues que l'algorithme n'a pas su classifier. Le fait que le nombre soit si imposant nous incite à penser que les sites multilingues ne sont pas comptabilisés dans plusieurs langues (sinon le total pourrait être inférieur à la somme des comptages par langue). Nous prendrons donc l'hypothèse que "le reste" représente le comptage des sites multilingues et des sites dans les langues non reconnues par l'algorithme... ainsi que les sites non reconnus par l'algorithme quoique rédigés dans une des langues "reconnues" (les erreurs de l'algorithme), sans oublier les pages qui présentent des symboles non rattachables à une langue (images, formules...). Nous prenons aussi l'hypothèse (probablement fausse!) que les erreurs sont également réparties selon les langues et nous allons donc les ignorer. Il nous reste à fixer un paramètre pour répartir les sites multi-lingues et les autres langues. Après plusieurs essais, nous choissisons le couple 15% de sites multilingues (ou neutres sur le plan de la langue) et 2.24% de sites dans les autres langues (par exemple 100 langues à 0.02%), parce qu'il nous paraît le plus vraisemblable.
Nous voyons que la comparaison montre une valeur plus importante pour l'anglais avec la méthode d'Alis qu'avec la méthode que nous qualifions de "complément de l'ensemble vide" dans AltaVista. Or, précisément, nous le verrons plus loin, notre méthode de comptage par mots nous fait soupçonner que le comptage d'AltaVista, lui aussi, avantage l'anglais. Cela fait poser question sur le résultat d'Alis Technologies et justifie une étude avec des critères linguistiques plus élaborés.
La comparaison entre les trois méthodes donne le résultat suivant :
| EN/FR | FR/ES | |
|---|---|---|
| MÉTHODE COMPLÉMENT DE L'ENSEMBLE VIDE | 35.90 | 1.31 |
| MÉTHODE ALIS | 46.67 | 1.36 |
| MÉTHODE FUNREDES | 17.60 | 1.33 |
MESURES DE FÉVRIER 1998
[RETOUR EN HAUT DE LA PAGE]
Les nouveautés d'AltaVista et les anomalies constatées nous ont amenés à procéder à des recoupements avec d'autres moteurs de recherche. C'est ainsi que nous avons procédé à un jeu de 5 mesures :
Nous pensions, pour effectuer la comparaison avec nos résultats des années précédentes, que l'indicateur M5 était, malgré la réserve mentionnée, le plus apte. Mais les résultats de corrélation nous conduisent à changer d'avis et à prendre l'indicateur M3 qui est indépendant de l'algorithme de langue.
SYNTHÈSE DES RÉSULTATS
| ANGLAIS | FRANÇAIS | ESPAGNOL | EN/FR | FR/ES | EN/ES | |
| M1: HOTBOT FÉVRIER 98 | 100221545 | 6090080 | 3230690 | 16.46 | 1.89 | 31.02 |
| M2: EXCITE FÉVRIER 98 | 23689345 | 1430583 | 910317 | 16.56 | 1.57 | 26.02 |
| M3: ALTAVISTA TOUTES LANGUES 2/98 | 26017027 | 1478396 | 1115708 | 17.60 | 1.33 | 23.32 |
| M4: ALTAVISTA PAR LANGUE 2/98 | 70718558 | 2946712 | 2058398 | 24.00 | 1.43 | 34.36 |
| M5: M3+M4 | 96735585 | 4425108 | 3174106 | 21.86 | 1.39 | 30.48 |
COMMENTAIRES
[RETOUR EN HAUT DE LA PAGE]
Il existe une certaine cohérence entre les résultats des trois moteurs de recherche mais il y a des écarts. Il semble qu'AltaVista favorise moins l'anglais que les deux autres. L'introduction de la reconnaissance des langues peut-elle expliquer les différences? Probablement. Quelle valeur peut-on apporter maintenant à l'étude de tendance? Il nous reste quelques doutes et cela aussi justifie la reprise de cette étude avec une méthodologie plus solide sur les plans linguistique et technique.
TENDANCES
[RETOUR EN HAUT DE LA PAGE]
| EN/FR | FR/ES | |
|---|---|---|
| MOYENNE MARS 1996 | 21.91 | 2.40 |
| MOYENNE MARS 1997 | 19.99 | 1.92 |
| MOYENNE FÉVRIER 1998 | 17.60 | 1.33 |
Les progressions sont quasiment linéaires et l'extrapolation montre un rapport anglais/français égal à 1 en 2006 et un rapport français/espagnol égal à 1 en 2000.
MESURES DES DIACRITIQUES
Un résultat intéressant pour les partisans de l'utilisation correcte des langues dans le réseau est une mesure du rapport entre écriture des mots avec et sans diacritiques. Les résultats sont stables selon les moteurs.
| Français | Espagnol | |
|---|---|---|
| Pourcentage de sites sans diacritiques (moyenne) | 20% | 50% |
Le moment est venu de consolider la méthode avec l'appui de linguistes. En collaboration avec l'Union Latine et son équipe de professionels de la langue, Funredes a entrepris de généraliser l'étude à trois autres langues latines en lui apportant une réelle rigueur sur le plan de la méthodologie linguistique. Un échantillon de mots à mesurer qui répondent aux meilleurs critères linguistiques est en train d'être élaboré (les obstacles sont nombreux !) et servira de base à une mesure de la présence des six langues suivantes: anglais, espagnol, français, italien, portugais et roumain. Les résultats seront publiés dans quelques semaines.
| [email protected] Copyright © 1996-1999 FUNREDES Création: 24 VIII 1998 Date de modification: 1 VII 1999 |
Retour à
votre page précédente |