L4 Title

3. Présentation générale de l'étude et de ses résultats

3.1 Méthodologie

Les résultats sont obtenus en conservant la méthodologie suivie à partir de 1998. D'abord, une sélection de 57 termes par langue est faite, chacun de ces termes comportant des variantes (orthographiques, selon la présence ou non de signes diacritiques, mais aussi synonymiques, dialectales ou morphosyntaxiques) et ayant une signification et une portée équivalente dans les langues étudiées (détails des critères linguistiques : 4.2 et annexe 7). Ensuite, il s'agit d'analyser et de comparer les résultats pour en déduire, par la méthode statistique, des pourcentages de présence pour chacune des langues. Pour chaque terme, le rapport des langues latines à l'anglais est utilisé comme une variable aléatoire et les techniques de la statistique sont appliquées en prenant comme hypothèse une distribution mathématique courante de cette variable aléatoire (la courbe de Gauss dite aussi distribution "normale").

Les résultats présentés ci-dessous ont été obtenus en faisant la synthèse des scores relevés sur le moteur de recherche qui ont satisfait aux critères de sélection décrits dans l'annexe 4. Les mesures prises en compte dans cette étude ont été effectuées entre ao�t 2000 et juin 2001.

3.2 3.2. Synthèse commentée des résultats

3.2.1 3.2.1. Résultats relatifs par rapport à l'anglais

Le tableau suivant présente le rapport moyen entre chaque langue latine (et l'allemand) et l'anglais, obtenu par la mesure de l'occurrence des nos termes dans l'espace Web faite en juin 2001.

Table 1 : Moyennes des langues latines (et de l'allemand) par rapport à l'anglais

WWW

ESPAGNOL

10,95%

FRANÇAIS

8,86%

ITALIEN

5,88%

PORTUGAIS

5,40%

ROUMAIN

0,32%

ALLEMAND

> 13,42% (estimé)1



3.2.2 Résultats absolus

Les résultats qui viennent d'être cités permettent d'évaluer la présence des langues latines et, approximativement de l'allemand par rapport à l'anglais ; pour chiffrer la présence absolue de ces langues dans l'espace de la Toile, il est nécessaire de bâtir au préalable une hypothèse sur la présence absolue de l'anglais. Le tableau ci-dessous montre les valeurs de présence absolue, établies à partir des moyennes pour diverses hypothèses de présence de l'anglais.

Table 2 : Présence absolue des langues étudiées sur la Toile

Si ANGLAIS = 65,00% 60,00% 55,00% 52,00% 50,00% 45,00% 40,00%
alors ESPAGNOL = 7,12% 6,57% 6,02% 5,69% 5,48% 4,93% 4,38%
alors FRANÇAIS = 5,76% 5,32% 4,87% 4,61% 4,43% 3,99% 3,54%
alors ITALIEN = 3,82% 3,53% 3,23% 3,06% 2,94% 2,65% 2,35%
alors PORTUGAIS = 3,51% 3,24% 2,97% 2,81% 2,70% 2,43% 2,16%
alors ROUMAIN = 0,21% 0,19% 0,18% 0,17% 0,16% 0,14% 0,13%
alors ALLEMAND2 = 8,71% 8,04% 7,37% 6,30% 6,97% 6,70% 5,37%
Il restera donc un espace pour les autres langues = 5,83% 13,10% 20,35% 24,96% 27,59% 34,83% 42,07%


Ce tableau donne une idée plus précise du poids absolu des langues étudiées par rapport à l'ensemble des pages présentes sur la Toile. Un des indicateurs les plus significatifs est celui de l'espace disponible pour les langues restantes, qui nous permet de sélectionner l'hypothèse d'une présence absolue de l'anglais avoisinant les 52% comme la plus probable.

Il suffit pour cela de considérer le chinois et le japonais, qui vraisemblablement ont un poids du même ordre que celui de l'allemand ou de l'espagnol (entre 5 et 8%), ainsi que celui des langues qui représentent entre 0,5% et 3% (coréen, hollandais, russe et les quatre langues scandinaves pour un total entre 8 et 10%), celle des langues dont la présence est très faible, comme le roumain (à savoir une dizaine de langues à 0,1% pour un total de 1%) et, finalement, les très nombreuses langues dont la présence reste marginale. Cette dernière proportion est la plus difficile à estimer ; en retenant l'hypothèse de 200 langues à 0,01%, on atteint un total de 2%... L'une des grandes inconnues, dont les conséquences resteront à évaluer pour le futur, est la possible multiplication des langues sur l'Internet, le total des langues existantes étant calculé entre 3000 et 6000…

Ces estimations nous font arriver à un poids total avoisinant les 25% pour les langues non étudiées et donc nous pousse à soutenir l'hypothèse d'une présence absolue proche de 52% pour l'anglais.

Cette estimation du chiffre de 25% pour le poids des langues non prises en compte directement dans l'étude est renforcée par l'évolution dynamique du poids de celles-ci décrite en détail dans le chapitre 4.3.3.

3.3 Relation entre le nombre de locuteurs et leur présence sur la Toile

Il est évident que les valeurs de présence absolue ne sont pas un indicateur parfait de la vigueur d'une langue sur les réseaux. Pour obtenir un résultat significatif, il convient de proportionner les valeurs exprimant la présence des langues sur l'Internet à l'aune de leur présence dans le monde réel. La présence relative de ces langues est calculée sans tenir pleinement compte du facteur "plurilinguisme". Cette méthode comporte des écueils méthodologiques qui ont été décrits lors de l'étude L4.

Table 3 : Poids des langues étudiées (chiffres arrondis en millions)

Anglais Espagnol Français Italien Portugais Roumain Allemand
Présence absolue (nombre de locuteurs))
630
375
130
60
190
30
120
Relative presence
(% of world popn.)
10,50%
6,25%
2,17%
1%
3,17%
0,50%
2,00%


Table 4: Présence pondérée des langues étudiées dans l'espace WWW

Présence absolue 2001

Présence pondérée 1998

Présence pondérée 2000

Présence pondérée 2000

ANGLAIS

52,00%

7,14

5,71

4,95

ESPAGNOL

5,69%

0,40

0,78

0,91

FRANÇAIS

4,61%

1,30

2,02

2,12

ITALIEN

3,06%

1,50

2,77

3.06

PORTUGAIS

2,81%

0,26

0,68

0.88

ROUMAIN

0,17%

0,30

0,38

0.34

ALLEMAND

> 6,97%

Non disponible

3,153

3,493

Un quotient égal à 1 est à considérer comme un résultat "normal" ; s'il est inférieur à 1, comme faible et s'il est supérieur à 1, comme un résultat respectable.

Forte progression de l'espagnol et surtout du portugais, mais les deux restent toutefois en dessous du seuil d'une représentation "normale". Excellent score de l'allemand et de l'italien et bon résultat du français.

3.4 Vitalité de la production d'information des internautes selon les langues

Une étude de Global Reach dont les derniers r�sultats datent du 31 mars 2001 (http//:www.glreach.com) propose une valeur pour le nombre d'utilisateurs de l'Internet par langue :

Table 5: Nombre d'internautes classés par langue (en millions)

Anglais

Espagnol

Portugais

Français

Italien

Roumain

Alleman

Reste

Internautes (en millions)

215,6

20,4

16,6

14,2

11,5

0,6

27,5

146,2

Répartition en %

47,6%

4,5%

3,7%

3,1%

2,5%

0,13%

6,1%

32,2%



En mettant ces résultats en rapport avec ceux obtenus dans par notre étude (voir table 6), il devrait être possible d'en déduire quels sont les segments linguistiques qui produisent le plus d'information sur la Toile.

Table 6: Productivité des locuteurs

Pages

Internautes

P/I

ANGLAIS

52,00%

47,6%

1,09

ESPAGNOL

5,69%

4,5%

1,26

FRANÇAIS

4,61%

3,7%

1,25

ITALIEN

3,06%

3,7%

1,25

PORTUGAIS

2,81%

2,5%

1,12

ROUMAIN

0,17%

0,13%

1,31

ALLEMAND

6,97%4

6,1%

1,14



Nous obtenons un résultat assez remarquable : les proportions par langue des pages disponibles sur la Toile et celle des internautes présents sont du même ordre de grandeur ! Le rapport entre pourcentage de pages et pourcentage d'utilisateurs se situe autour de 1 pour toutes les langues étudiées5 , ce qui montrerait qu'aujourd'hui la quantité de pages de la Toile produites dans une langue est directement proportionnelle au nombre d'internautes qui pratiquent cette langue. Le résultat de l'anglais surprend : on pouvait s'attendre à une valeur beaucoup plus forte sous l'influence du plurilinguisme6 . Cela pourrait donc signifier que la productivité des locuteurs de langue anglaise est inférieure à celle des locuteurs dans les autres langues mentionnées, preuve d'une prime à la production des populations de locuteurs d'autres langues occidentales, conscientes des enjeux linguistiques de l'Internet ? Il serait très intéressant de connaître ces mêmes valeurs pour les langues plus récentes dans l'Internet...

Retour en haut de la page

Page précédente Page suivante


  1. Il y a, dans cette version de l'étude, une différence de qualité entre les résultats relatifs à l'allemand et ceux obtenus pour les autres langues. En effet, la formation des mots en allemand, très différente de celle des autres langues étudiées, "pénaliserait" lourdement cette langue si on se tenait aux résultats établis demandant aux moteurs de faire une recherche "par mot isolé" ou séparé, c'est-à-dire sans aucun contexte avant ou après le terme. Pour arriver à avoir des résultats aussi fiables que ceux qui ont été établis pour les autres langues, il faudrait dans un deuxième temps envisager des recherches "par mot non isolé" (c'est-à-dire, avec contexte avant et après) et s'aider par ailleurs, dans la mesure du possible, d'un facteur chiffré qui exprime la différence de quantité des mots séparés entre les langues de l'étude ou entre certaines langues de l'étude et l'allemand. Notre solution ici a été de garder l'échantillon tel quel, de l'étendre avec la même méthodologie linguistique à 57 termes allemands équivalents et de chercher encore par mot isolé. Une correction de 30 % au moins en hausse, par rapport aux résultats ainsi établis, nous a paru nécessaire pour commencer à se rapprocher de cette réalité linguistique. Le chiffre de 10,5% est obtenu en appliquant une hausse de 30% au premier résultat brut de 10,32%.
  2. Résultats majorés à 30% (voir note précédente).
  3. Voir note précédente.
  4. Voir note précédente.
  5. Les écarts sont inférieurs à 25% en valeur absolue et on peut difficilement tirer des conclusions à propos de ces faibles variations qui sont probablement à l'intérieur des intervalles de confiance des chiffres annoncés par Global Reach, lesquels ne bénéficient pas d'une méthodologie standard pour toutes les langues.
  6. La proportion de locuteurs de langues autres que l'anglais qui produisent des pages en anglais (ou traduisent leurs pages en anglais) est, nous le savons, très élevée.