Quel espace reste-t-il dans l’Internet, hors la langue anglaise et la culture "made in USA"?

 

Daniel Pimienta, (pimienta@funredes.org)

Président de l’Association Réseaux & Développement, FUNREDES (http://funredes.org).

 

Résumé

Le contexte historique du développement des réseaux télématiques qui ont conduit à ce qui est aujourd'hui l'Internet est celui des réseaux de la recherche. Ceux-ci ont apporté la plus part des éléments essentiels de la culture des réseaux, indépendamment du choix du protocole qui sous-tend l'architecture d'interconnexion des réseaux d'ordinateurs. L'histoire officielle, partant d'une confusion entre utilisateurs et applications, d'un côté, et protocoles de l'autre, a effacé ce contexte au profit d'une vision centrée sur les États-Unis et sur le protocole TCP-IP. Un travail systématique de mesure de la place des langues et des cultures latines dans l'Internet, en comparaison avec la langue anglaise et la cultures des États-Unis, est présenté. Les résultats obtenus sont fiables et ils contredisent les médias qui prétendent que la suprématie des États-Unis est totale et irréversible. Le pourcentage de pages web en anglais passe sous la barre des 50% et la représentation des cultures latines est en hausse constante.

Mots clés : Internet, langues, cultures, histoire

 

Abstract

The historical context of the development of computer networks which leads to what is today the Internet is based on Research Networks. Those networks has brought most of the key elements of what is the network culture, independently of the selection of the protocol which supports the interconnection of the computer networks. The "official history", starting from a confusion between users and applications, in one hand, and protocols in the other hand, has erased this context and replaced it by a vision focusing United-States and the TCP-IP protocol. A systematic task of weighting the Latin languages and cultures within the Internet in comparison with English and United-States culture is presented. The results are reliable and contradict the media's which present the domination of United-States as total and irreversible. The percentage of web pages in English id getting below 50% and the representation of Latin cultures is maintaining a steady growth.

Keywords : Internet, languages, cultures, history

 

1 Introduction
2 Le contexte historique
3 État des lieux et tendances

3.1 Méthodologie pour la partie langue
3.2 Résultats pour la partie langue
3.3 Méthodologie pour la partie culture
3.4 Résultats pour la partie culture

4 Conclusions
5 Sources, références et bibliographie

 

1 Introduction

À en croire les médias traditionnels et nombre de conférenciers sur le thème, l'Internet est une invention américaine où le règne de la langue anglaise est irréversible et la suprématie de la culture américaine irrémédiable, en particulier dans son expression triomphante d'une économie libérale.

Ce discours peu nuancé présente l'inconvénient de procurer une impression de fatalité et peut parfois conduire à l’impuissance ou au renoncement pour les acteurs et les décideurs de politiques de création de contenus sur l'Internet.

Et si la version officielle de l'histoire des réseaux que colportent les médias faisait preuve d'une amnésie sélective à l'égard des réalisations notables accomplies par d'autres nations? Et si la prétendue dominance absolue linguistique et culturelle des États-Unis n'était qu'un phénomène transitoire, initial et donc réversible? Et si le mouvement des réseaux communautaires ou citoyens, puisant ses forces dans les sources mêmes de la naissance des réseaux, démontrait l'existence d'une alternative citoyenne crédible à la vision actuellement dominante de l'Internet centrée sur le commerce? Et si un usage approprié de l'Internet en faisait un instrument réel de développement pour les pays du Sud capable de promouvoir leurs langues et leurs cultures?

Cet article, écrit sans aucun doute avec le parti pris d'un représentant actif de la société civile, se propose toutefois d’apporter des éléments convaincants et documentés pour démontrer que ces suppositions ne sont pas gratuites et que la période de transition initiale qui a marqué la domination absolue de l'anglais sur l'Internet arrive à son terme.

L'espace est ouvert pour toutes les langues et toutes les cultures: il suffit de produire des contenus, sans complexe et sans pessimisme!

2 Le contexte historique

Les acteurs historiques du développement des réseaux ont été les chercheurs1 qui ont su utiliser, à partir de la seconde moitié des années 70, les instruments fabriqués par les constructeurs d'ordinateurs. Les réseaux de la recherche ont atteint une masse critique dépassant le million d'utilisateurs au début des années 90; puis, en quelques années, pendant la période 1995 – 1998, leur domaine d’activité est sorti du cercle des initiés pour devenir à la fois un sujet médiatique et un terrain d’expansion des médias. Durant cet intervalle, l'Internet s’est transformé rapidement en un média et un outil privilégié de la mondialisation économique. L’importance numérique relative et le poids politique des chercheurs et communautés de développement qui avaient créé la dernière utopie du siècle, un endroit de libre circulation de l’information, où le partage et la solidarité avaient pris le devant sur le commerce, se sont rapidement réduits.

À lire la presse, à observer ou écouter les autres médias, il semble que l’histoire de l’Internet soit exclusivement nord-américaine, puisque la technologie est née au Département de la Défense des États-Unis et qu’elle s’est développée dans ce pays.

Il s’agit d’une vision partiale de l’histoire de l’Internet, et le fait qu’elle soit reprise par la grande majorité des médias dans tous les pays ne la transforme pas pour autant en vérité absolue. C'est le fruit d'une orientation technologique mystificatrice qui laisse de côté l’essentiel: les communautés d’utilisateurs de toutes les régions du monde qui se sont "approprié" la technologie pour servir leurs ambitions de communication et de progrès. En effet, s’il est vrai que "Internet" est le nom d’un protocole de communication (TCP-IP) qui a été conçu aux États-Unis (pendant que d’autres protocoles étaient conçus, au même moment, en France ou en Angleterre), "l’Internet" représente l’ensemble des réseaux interconnectés, indépendamment de leur protocole, et son histoire est planétaire2. Il y a là l’occasion d’une confusion facile (et courante) entre le réseau, constitué de services et d’utilisateurs, et le protocole du réseau, ensemble de règles établies pour automatiser les services. L’histoire sociale des réseaux s’est écrite par le biais de la coopération de non techniciens qui ont apporté des éléments culturels bien plus déterminants que la nature de tel ou tel protocole. À ce titre la charte du réseau Bitnet et plus tard la formulation d’une "netiquette" (un code de bonne conduite, une manière "réseaunable" de travailler), la création du mécanisme de conférence "listerv"3 dans le réseau EARN/BITNET ou l’organisation des groupes de discussion USENET ont joué un rôle bien plus important que le schéma des bits de contrôle du protocole TCP-IP. La culture émergente des réseaux de la recherche a été le produit des actions d’hommes et de femmes de tous les continents, du Nord comme du Sud, de langues et de cultures diverses.

Du protocole TCP-IP, il faut noter la limitation historique d’un courrier électronique sans signes diacritiques, due au choix de l'ASCII non étendu4, qui a représenté un problème sérieux pour l’usage de langues avec des signes diacritiques et qui a finalement été résolu tardivement avec la capacité d’envoyer des fichiers multimédias5. Il faut également noter la capacité exceptionnelle d’adaptation de l’architecture TCP-IP à l'évolution des besoins; résultat beaucoup plus des procédures démocratiques et transparentes de la Société Internet6 que d’une propriété magique du protocole7. Cette propriété remarquable de l’Internet nous semble clairement appartenir au champ "sociologique" (et donc international) et non pas au champ technologique (nord-américain de naissance).

Les médias traditionnels ont une tendance marquée à préférer les "histoires officielles" qui favorisent et simplifient une des visions des réalités. En général, l’angle de projection choisi n’est pas neutre; dans le cas des réseaux télématiques, la vision favorisée a été celle des technologues au détriment des sociologues; mais aussi celle d’une vision centrée sur les États-Unis au détriment d’une vision pluraliste et décentralisée, qui est pourtant l’essence de la culture des réseaux.

Quoi qu’il en soit, l’un des éléments clefs de l’histoire de l’Internet a été la naissance, en Europe, du protocole qui soutient la Toile8 lequel a permis d’offrir une structure standardisée d’accès aux informations de l’Internet et un moyen relativement simple pour en organiser et en faciliter l'accès mondial. Il est important de comprendre que tous les protocoles offraient des fonctions similaires9 et le Web aurait probablement fini par émerger sur n’importe lequel d’entre eux.

3 État des lieux et tendances

L'Association Réseaux et Développement (FUNREDES), qui soutient une vision de l'Internet pour le développement, consacre son action de terrain, depuis 1988, à créer et expérimenter des méthodes originales pour créer des réseaux nationaux10, pour organiser  des communautés virtuelles ou pour évaluer l'effet des technologies de l'information et communication (TIC) sur le plan social. La défense de la pluralité des cultures et des langues dans le cyberespace fait partie de ses préoccupations. Dans ce cadre et pour être capable de contredire les positions simplistes et pessimistes au sujet de la prédominance absolue et irrésistible de l'anglais à l'intérieur du réseau, Funredes a créé et développé, dès 1996, des méthodes et des procédures pour mesurer la présence des langues et cultures latines en comparaison avec la langue anglaise et la culture des États-Unis.

Depuis cette date, la grande majorité des données produites sur la place des langues dans l'Internet sont le fruit du travail de compagnies de consultants qui, en règle générale, ne présentent pas leur méthodologie et évitent de comparer leur résultats avec ceux des firmes concurrentes. Dans la majorité des cas, les données semblent être produites par des sondages et dans certains cas les résultats sont obtenus à l'aide d'algorithmes de reconnaissance de langues11. Très souvent, ces travaux sont présentés en appui à une stratégie de marketing pour la vente de produits ou de services. Il est surprenant et même inquiétant que l'Internet, un avatar des réseaux de la recherche des années 80, ne soit pas capable de maintenir une introspection avec des critères scientifiques...

Funredes a cherché à apporter une approche plus scientifique et en tous cas totalement documentée et une méthode qui puisse apporter un contrepoids aux techniques de reconnaissance des langues. Initialement, l'étude linguistique de Funredes été réalisée dans deux espaces de l'Internet: la Toile et les groupes de la discussion (Usenet), et une première approche méthodologique a été déterminée pour la partie culturelle. Les premiers résultats sur les langues étaient extrêmement approximatifs, l'ambition étant seulement d’indiquer un ordre de grandeur en l'absence totale de données sur le sujet. Cependant, à partir de 1998, grâce à la collaboration de l'Union Latine pour les aspects linguistiques, la qualité et la précision des résultats est devenue scientifiquement acceptable, comme en témoignent les calculs statistiques des intervalles de confiance et la cohérence de l'évolution des résultats.

Le travail sur l'aspect culturel a été répété, avec quelques améliorations, en octobre 1998 et de nouveau en octobre 2001. Depuis août 2000, Funredes a pris l'initiative d'automatiser les campagnes de mesure pour les langues à l'aide de bases de données en interface avec le réseau, et ainsi a pu mettre au point un plan d'observation systématique, avec une fréquence trimestrielle de production de chiffres qui permet de percevoir plus finement les évolutions.

3.1 Méthodologie pour la partie langue

La méthode utilisée consiste, en premier lieu, dans l'établissement d'une sélection de termes pour chaque langue, chacun avec ses variantes orthographiques respectives, avec et sans l'usage des signes diacritiques, aussi bien que les formes synonymes, dialectiques et morpho-syntaxiques, de manière à obtenir une signification et une portée équivalentes12 dans chacune des langues étudiées. Ensuite, le nombre de pages du Web où apparaît chacun des termes est mesuré à l'aide d'un des moteurs de recherches qui répondent aux critères de la méthode. Les tableaux de résultats numériques obtenus sont analysés pour déduire les pourcentages de présence de chaque langue. Pour chaque terme, le rapport des langues latines à l'anglais est utilisé comme une aléatoire variable et les techniques statistiques traditionnelles sont appliquées en prenant comme hypothèse une distribution mathématique courante de cette variable aléatoire. Tous les détails de la méthode peuvent être consultés à partir de la page de l'étude (http://funredes.org/LC).

3.2 Résultats pour la partie langue

Les derniers résultats d’octobre 2001 montrent que l'anglais est en train de passer sous la barre des 50%.

POURCENTAGE DE PAGES WEB

PAR LANGUE

ANGLAIS

50,00%

ESPAGNOL

5,62%

FRANÇAIS

4,57%

ITALIEN

3,08%

PORTUGAIS

2,79%

ROUMAIN

0,18%

RESTE

33,78%

 

La méthode permet de déterminer avec une relative précision le pourcentage des langues latines par rapport à l'anglais. La valeur absolue des langues latines ne peut être déduite qu'en prenant une hypothèse pour l'anglais. Cette valeur est déduite en faisant des recoupements par rapport au poids du reste des langues.

La table suivante montre la progression de l'anglais et indique les tendances.

DATE

9/1998

8/2000

1/2001

6/2001

8/2001

POURCENTAGE DE

PAGES WEB EN ANGLAIS

75%

60%

55%

52%

50%

 

Cependant, les valeurs de présence absolue ne sont pas un bon indicateur de la vitalité d'une langue dans l'Internet; pour la connaître, il convient d'établir la valeur pondérée de la présence d'une langue dans la Toile, en fonction de sa présence réelle sur la planète. Le tableau suivant indique le nombre de millions de personnes qui utilisent, comme première ou deuxième langue, chacune des langues traitées dans l'étude (source : Union Latine, chiffres arrondis):

Anglais

Espagnol

Portugais

Français

Italien

Roumain

Présence absolue (millions)

630

375

190

130

60

30

Présence relative

(% de la population mondiale)

10,50%

 

6,25%

 

3,17%

 

2,17%

 

1%

 

0,50%

 

 

Si nous faisons le rapport du pourcentage de page web dans une langue avec la présence relative de cette langue, le résultat13, normé à 1, indique donc le présence relative de cette langue dans la Toile, et en quelque sorte sa vitalité.

Présence absolue 8/2001

Présence pondérée 8/1998

Présence pondérée 8/2001

Évolution

3 ans

ANGLAIS

50,00%

7,14

4,76

- 33,31%

ESPAGNOL

5,62%

0,40

0,90

+ 124,80%

FRANÇAIS

4,57%

1,30

2,10

+ 61,82%

ITALIEN

3,08%

1,50

3,08

+ 105,00%

PORTUGAIS

2,79%

0,26

0,88

+ 237,90%

ROUMAIN

0,18%

0,30

0,35

+ 16,67%

 

On peut observer la faiblesse de l'espagnol et du portugais dans la période initiale de mesure et comment le redressement est en cours. Notons la bonne place du français et celle, excellente, de l'italien... et, bien sûr, celle de l'anglais qui reste encore aujourd'hui celle du plus grand poids, quoique dans une moindre proportion.

Quel est le facteur dominant dans la vitalité d'une langue dans le Web? Pour essayer de le savoir, comparons nos résultats avec le nombre d'internautes par langues (source GlobalReach):

Anglais

Espagnol

Portugais

Français

Italien

Roumain

Reste

Internautes

(en millions)

217,8

20,4

12,1

16,6

17,5

0,6

191

Distribution

(en %)

45,76%

4,29%

2,54%

3,49%

3,68%

0,13%

40,13%

 

Si nous établissons le rapport entre les deux valeurs nous obtenons un indicateur de la productivité des espaces linguistiques14.

P=Pages

I=Internautes

P/I =

ANGLAIS

50,00%

45,76%

1,09

ESPAGNOL

5,62%

4,29%

1,31

FRANÇAIS

4,57%

3,49%

1,31

ITALIEN

3,08%

3,68%

0,88

PORTUGAIS

2,79%

2,54%

1,10

ROUMAIN

0,18%

0,13%

1,39

 

Le résultat est vraiment surprenant! Les chiffres sont proches dans toutes les langues et le chiffre de l'anglais que l'on attendait bien supérieur à 1, puisque de nombreuses personnes non anglophones produisent des pages en anglais, est parmi les plus bas.

Soyons prudent toutefois dans les interprétations car les chiffres de Global Reach ne sont ni précis ni homogènes15. Malgré cette limitation, il semble raisonnable de conclure que le nombre de pages d'une langue dans le Web est directement proportionnel aujourd'hui à la quantité d'utilisateurs de l'Internet parlant cette langue ce qui apporte un élément stratégique pour les responsables de politiques publiques dans ce domaine.

En ce qui concerne la faible productivité de l'anglais, c'est une hypothèse surprenante qui reste à approfondir dans la poursuite de nos travaux et qui serait, en cas de confirmation, lourde de conséquence pour le futur panorama des langues sur la Toile. D'ores et déjà, la situation de l'évolution des langues sur l'Internet pourrait apporter des changements que personne ne prévoyait quant au prochain désavantage des citoyens des États-Unis, en général peu enclins au multilinguisme face à une Toile qui sera de moins en moins anglaise et où les personnes qui sauront tirer le meilleur parti seront sans aucun doute celles qui ont la maîtrise de plusieurs langues...

3.3 Méthodologie pour la partie culture

Comment mesurer la représentation d'une culture dans l'Internet? C'est une question très difficile et aucune méthode simple ne garantit d'échapper à la subjectivité. Nous avons adopté une méthode très simple, inspirée par la méthode d'évaluation d'un scientifique qui est basée sur le nombre de citations de sa production d'articles scientifiques dans la bibliographie de ses collègues (l'indice de citation16). Nous avons établi un nombre limité de catégories représentatives d'un aspect de la culture. Pour chaque catégorie, nous avons établi une liste de personnalités représentatives qui proviennent de chaque groupe linguistique et d'autres groupes. À l'aide des moteurs de recherches nous mesurons la célébrité dans la Toile des personnages sélectionnés et nous pouvons en déduire certaines considérations générales sur la représentation culturelle.

Les catégories établies sont les suivantes:

- Personnalités des sciences (de tous les temps)
- Personnalités des lettres (y compris les philosophes)
- Personnalités du cinéma (de tous types)
- Personnalités des arts plastiques (de tous types)
- Personnalités de la musique ou de la chanson (de tous types)
- Personnalités politiques contemporaines
- Personnalités médiatiques contemporaines (non incluses dans la catégorie politique)
- Personnalités historiques (non incluses dans les autres catégories)
- Personnages imaginaires ou de fiction (de tous les temps)

Il ne s'agit pas de reprendre toutes les personnalités célèbres que apparaissent dans une encyclopédie ni la série des noms propres d'un dictionnaire mais plus simplement d'établir un échantillon suffisamment varié et représentatif, quoique non exhaustif, pour permettre d'estimer, subjectivement, si les cultures latines sont représentées de manière équilibrée dans la Toile. Il n'y a bien sûr pas une seule culture francophone, hispanophone ou lusophone qu'il soit possible d'identifier à une nation et vice versa. Dans la mesure où ces cultures sont identifiées avec la langue officielle des nations respectives, la frontière entre langue et la culture est difficile à résoudre. Il convient de ne pas perdre de vue le caractère en même temps subjectif et arbitraire de la méthode choisie et il ne faut donc pas considérer ces résultats comme une vraie mesure du poids des différentes cultures dans l'Internet. Contrairement à la partie linguistique dont les résultats mesurés sont fiables et objectifs, la partie culturelle de notre étude apporte seulement une approche subjective simple pour schématiser des tendances.

Malgré ces limitations, les résultats apportent une contribution originale et probablement unique à l'évaluation de la représentation des cultures dans l'Internet. L'évolution des résultats entre 1998 et 2001, cohérente avec les résultats de l'étude sur les langues, donne crédibilité et confiance dans la méthode en dépit de ses évidentes limitations.

3.4 Résultats pour la partie culture

Les campagnes de mesures ont été réalisées en 1996, 1998 et 2001, avec un effort d'extension et d'amélioration de la sélection de caractères représentatifs en 1998 et avec une automatisation du processus de la mesure en 2001, ce qui ouvre la possibilité d'une observation permanente des cultures latines dans l'Internet.

Nous avons défini une méthode de pondération des résultats qui permet de normaliser (les notes vont de 0 à 100) et synthétiser les résultats. Cette méthode tend à favoriser les cultures qui ont les personnages dans le haut du classement et n'est pas très sensible aux variations légères distribuées de manière homogène.

Le tableau suivant indique les valeurs de 1998 et, entre parenthèses, l'évolution entre 1998 et 2001:

 

des

États-Unis

espagnol

français

italien

portugais

roumain

autres

SCIENCES

25 (-3)

4

21 (+2)

11 (-1)

 

4

60 (-8)

LETTRES

38 (-3)

7

16 (+3)

4

4 (+1)

2 (+1)

60 (+2)17

CINÉMA

88 (-12)

4

6

4

2 (-1)

2

18 (+5)18

ARTS PLASTIQUES

9

44 (-4)

28 (+3)

12

6 (-1)

4

18 (-2)19

MUSIQUE

46 (+4)

9 (+2)

6

6

5

1 (-1)

60 (-8)20

POLITIQUES

93 (-7)

11 (+3)

11

6 (+1)

4 (-1)

4

32 (+7)

MÉDIATIQUES

71 (+6)

8

15 (+1)

9 (-1)

6

6

39 (-7)

HISTORIQUES

65 (-10)

10

15 (+1)

17 (-1)

4 (-1)

 

34 (+3)

IMAGINAIRE

42 (+3)

14

16 (-3)

17 (+2)

9

11

37 (+14)

TOUTES CATÉGORIES

75 (+4)

5 (+3)

4 (-1)

3

1

0

30 (-1)

Les personnalités latines sont bien représentées dans les secteurs culturels où la séparation entre commerce et culture est la plus marquée. Mais dans les secteurs culturels régis par les lois du marché, la culture des États-Unis s'impose de loin. Dans la même logique, les personnages latins qui ont su pénétrer le marché américain (comme par exemple, le Porto Ricain Ricky Martín et la Québécoise Céline Dion dans la chanson, ou l'Espagnol Antonio Banderas et la Française Juliette Binoche dans le cinéma) apparaissent à une place bien supérieure à celle de leurs confrères et consoeurs.

Entre 1996 et 1998, on pouvait noter une faible augmentation générale de la présence des cultures latines, mesurée par le total des pages mentionnées, de 11,25% en 3 années. Entre 1998 et 2001, l'augmentation attendue après la lecture des résultats pour les langues est plus forte, spécialement pour les cultures hispaniques. Les résultats confirment les prévisions comme le montre le tableau suivant:

Évolution du nombre de pages mentionnées (1998-2001)

USA

ES

FR

PO

IT

RU

Reste

TOTAL

Sciences

375%

786%

528%

405%

661%

416%

426%

Lettres

417%

571%

539%

721%

539%

466%

471%

483%

Cinéma

422%

640%

534%

532%

506%

502%

547%

455%

Musique

487%

954%

508%

717%

590%

630%

411%

487%

Arts

406%

541%

592%

564%

482%

448%

549%

519%

Politiques

334%

617%

411%

478%

753%

580%

510%

407%

Médiatiques

434%

622%

679%

462%

476%

726%

429%

452%

Historiques

290%

433%

422%

72%

473%

354%

344%

Imaginaires

227%

585%

241%

468%

296%

240%

290%

264%

Général

299%

537%

425%

452%

446%

458%

358%

352%

Vs. moyenne

-15,06%

52,56%

20,74%

28,41%

26,70%

30,11%

1,70%

0,00%

Vs. USA.

0,00%

79,60%

42,14%

51,17%

49,16%

53,18%

19,73%

17,73%

 

L'augmentation moyenne des cultures latines par rapport à la culture des États-Unis est de 55% entre 1998 et 2001 avec une pointe de près de 80% pour les cultures hispaniques qui réduisent ainsi leur retard initial.

Il est intéressant de remarquer que le résultat exceptionnel des cultures hispaniques dans la catégorie "arts plastiques", qui avait été obtenu dès la première étude en 1996, et les bons résultats de la francophonie en "sciences" et "lettres".

Une analyse détaillée des résultats, qui peuvent être consultés à partir de la page http://funredes.org/LC/, permet de remarquer des phénomènes intéressants, reflets de la sociologie globale. Le premier personnage mentionné dans l'Internet, toutes cultures latines confondues, est Léonard de Vinci, suivi par Ricky Martín et Céline Dion. Le premier politique est Fidel Castro suivi par Jules César. Le premier personnage en littérature est Victor Hugo. Les progressions les plus fortes entre 1998 et 2001 ont été celles de: Carlos Santana, Ricky Martin, Françoise Sagan, St Exupéry, José Saramago, Jorge Castañeda, Roberto Benigni et Celia Cruz. Finalement, en laissant la présidence des États-Unis, Bill Clinton qui était le premier de toutes les catégories, laisse cette place à... Jésus Christ.

Les dix personnages les plus célèbres toutes cultures latines confondues, dans la catégorie "sciences" (le chiffre entre parenthèse indique la progression dans la classification depuis 1998): Pierre ou Marie Curie (+9), Louis Pasteur (+0), Blaise Pascal (-1), Galileo Galilei (-1), Enrico Fermi (-2), Jacques Cousteau (+0), Guglielmo Marconi (+1), Claude Lévi Strauss (+2), Jacques Monod (+0) et Joël de Rosnay (+2).

Idem, dans la catégorie "lettres": Victor Hugo (+1), Jules Verne (+3), Dante Alighieri (+6), Jean Paul Sartre (+11), Antoine de St. Exupery (+43), René Descartes (+0), Albert Camus (+4), Pablo Neruda (+2), Gabriel García Márquez (+2) et Alexandre Dumas (+1).

Dans la catégorie "cinéma" : Antonio Banderas (+10), Juliette Binoche (+10), Gérard Depardieu (+6), Luc Besson (-4), Catherine Deneuve (+9), Pedro Almodóvar (+20), Brigitte Bardot (+1), Jean Reno (+7), Jean luc Godard (+1) et Federico Fellini (-6).

Dans la catégorie "arts": Léonard de Vinci (+0), Salvador Dalí (+0), Pablo Picasso (+0), Claude Monet (+0), Le Greco (+1), Marc Chagall (+4), Diego Rivera (-2), Frida Kahlo (-2), Henri Matisse (+1) et Paul Gauguin (+4).

Pour connaître les résultats détaillés, consulter la page web de référence.

3.5 Détermination des pays producteurs de contenus

Dans sa dernière édition de mesures, Funredes a cherché à ajouter un nouvel instrument à sa panoplie d'indicateurs, avec l'intention de faciliter des données pour les responsables de politiques publiques. Le but de ce nouvel exercice est d'être capable de déterminer dans quelle mesure chacun des pays contribue à la production de contenus dans une langue donnée. L'espagnol a été choisi pour la mise au point de cette nouvelle méthode qui est dérivée de celle utilisée dans l'étude langue. La méthode consiste à répéter les mesures de la langue à l'intérieur de chaque domaine Internet de pays concerné (option permise par certains moteurs de recherches).

Les mesures pour l'espagnol ont donné les résultats suivants (il faut lire "13.48% des pages en espagnol proviennent du domaine .ES"):

 

Pays

Domaine

National

Proportion de pages en espagnol

Domaines génériques

Argentine

.ar

9,06%

.com

35,,23%

Bolivie

.bo

0,14%

.org

11,73%

Brésil21

.br

0,83%

.net

4,23%

Chili

.cl

3,29%

.gov

0,14%

Colombie

.co

1,96%

.edu

1,78%

Costa Rica

.cr

0,51%

 

Cuba

.cu

0,55%

 

Équateur

.ce

0,35%

 

Espagne

.es

13,48%

 

États-Unis

.us

0,10%

 

Guatemala

.gt

0,20%

 

Honduras

.hn

0,10%

 

Mexique

.mx

8,14%

 

Nicaragua

.ni

0,53%

 

Panama

.pa

0,21%

 

Paraguay

.py

0,29%

 

Pérou

.pe

1,27%

 

Porto Rico

.pr

0,02%

 

R. Dominicaine

.do

0,20%

 

Salvador

.sv

0,19%

 

Uruguay

.uy

0,96%

 

Venezuela

.ve

1,14%

 

Autres pays

3,37%

 

TOTAL

 

46,89%

53,11%

Pour pouvoir établir le poids complet de chaque pays dans la production de contenus en espagnol, il est nécessaire de poursuivre la méthode en redistribuant les pourcentages de domaines génériques correspondant à chacun des pays (c'est-à-dire les 53,11% de pages qui sont à l'intérieur des domaines génériques). Il s'agit d'une tâche incertaine car la redistribution dépend, pour chaque pays, du nombre de sites Internet qui ne font pas usage du domaine national, valeurs variables selon les pays et pour lesquelles il n'existe pas de données sûres.

Nous avons établi des hypothèses du travail, avec l'aide de quelques collègues experts dans le sujet22: les chiffres en gras du prochain tableau sont ceux qui sont les mieux appuyés par des données documentées.

En règle générale, une bonne politique d'administration du domaine national (comme au Chili) avec des prix bien inférieurs à ceux des domaines génériques (comme dans le cas extrême de l'Argentine où les sous-domaines sont gratuits) induisent un faible pourcentage de sites hors du domaine national. En revanche, une administration qui a connu des problèmes ou des conflits dans la gestion du domaine national (comme en Haïti où 100% des sites sont extérieur au .ht) ou encore des prix plus élevés que les domaines génériques (comme en Colombie) conduit à un plus grand nombre de sites sous domaines génériques (et souvent logés aux États-Unis où l'offre est plus attrayante sur le plan économique). Il faut noter la situation exceptionnelle de l'Espagne où seulement 25% des sites utilisent le domaine .es23!

Une fois établie l'hypothèse du nombre de site hors domaine national il est facile de répartir les domaines génériques.

 

Proportion de pages en espagnol sous domaine national

Hypothèse pour la proportion de pages sous domaine national

Pourcentage total de contribution, par pays, à la production de pages en espagnol

Argentine

9,06%

95%

9,54%

Bolivie

0,14%

80%

0,18%

Brésil

0,83%

90%

0,92%

Chili

3,29%

90%

3,66%

Colombie

1,96%

50%

3,92%

Costa Rica

0,51%

80%

0,64%

Cuba

0,55%

95%

0,58%

Équateur

0,35%

80%

0,44%

Espagne

13,48%

25%24

53,92%

États-Unis

0,10%

2%25

5,00%

Guatemala

0,20%

80%

0,25%

Honduras

0,10%

80%

0,13%

Mexique

8,14%

95%

8,57%

Nicaragua

0,53%

80%

0,66%

Panama

0,21%

80%

0,26%

Paraguay

0,29%

80%

0,36%

Pérou

1,27%

90%

1,41%

Porto Rico

0,02%

10%

0,20%

R. Dominicaine

0,20%

50%

0,40%

Salvador

0,19%

80%

0,24%

Uruguay

0,96%

80%

1,20%

Venezuela

1,14%

80%

1,43%

Autres pays

3,37%

55%

6,13%

TOTAL

46,89%

 

100%

Cette méthode nous enseigne que plus de la moitié des pages en espagnol sont produites en Espagne, bien que ce pays ne compte que 20% des internautes hispanophones. Les pays qui contribuent plus particulièrement à la production de contenus en espagnol sont, après l'Espagne, et par ordre décroissant : l'Argentine, le Mexique, les États-Unis, la Colombie et le Chili (un peu plus de 20% pour les 5). Nous obtenons ainsi la répartition suivante par région:

Espagne

54 %

Amérique latine et Caraïbes

35 %

États-Unis

5 %

Reste du monde

6 %

La méthode parait valide, cependant, cette première approche n'est pas très fiable étant donnée la difficulté d'avoir des valeurs sûres pour la proportion de pages dans le domaine national. Nous considérons que les valeurs fournies sont à l'intérieur d'une fourchette de plus ou moins 25% et à au fur et à mesure que nous pourrons préciser ces données nous serons capables de réduire cette fourchette.

La partie la plus contestable du résultat est celle des pourcentages de contenus en espagnol produits aux États-Unis parce que nous extrapolons à partir d'un domaine national dont l'utilisation est extrêmement limitée, ce qui fait que le résultat a une grande sensibilité à l'hypothèse choisie (par exemple si nous avions choisi 4% au lieu de 2% de serveurs dans le domaine national, le résultat pour les États-Unis passerait à 2,5% au lieu de 5%).

Les États-Unis comptent plus du double d'utilisateurs de langue espagnole que l'Espagne; mais la production associée ne paraît pas être à la hauteur de ce chiffre. D'après notre résultat le facteur de productivité des États-Unis serait 22 fois inférieur à celui de l'Espagne. La tentation est grande de compléter notre travail avec un tableau qui indiquerait, par pays, le rapport du pourcentage d'utilisateurs de langue espagnole par le pourcentage de la contribution à la production en espagnol, de manière à établir un indicateur de la productivité par pays. La limitation est que nous ne possédons pas de données fiables et homogènes pour le nombre d'utilisateurs de langue espagnole par pays. Il est en conséquence difficile de déterminer si un chiffre bas de productivité est le reflet d'une réalité ou bien la conséquence d'une surévaluation du nombre d'utilisateurs, et inversement pour un haut chiffre... Dans le tableau qui suit nous indiquons quelques éléments de ce tableau.

Contribution à la production de pages en espagnol

Nombre d'internautes

(millions)

Pourcentage du total des internautes de langue espagnole

PRODUCTIVITÉ

pour contenus en espagnol

Argentine

9,54%

2,5

7,18%

1,33

Chili

3,66%

0,63

1,81

2,02

Colombie

3,92%

0,6

1,72%

2,27

Costa Rica

0,64%

0,15

0,43%

1,48

Cuba

0,58%

0,06

0,17%

3,36

Espagne

53,92%

7

20,11%

2,68

États-Unis

5,00%

15

43,08%

0,12

Mexique

8,57%

6,7

19,24%

0,45

Pérou

1,41%

0,4

1,15%

1,23

Porto Rico

0,20%

0,2

0,57%

0,35

Uruguay

1,20%

0,3

0,86%

1,39

Venezuela

1,43%

0,95

2,73%

0,52

Cuba apparaît comme le pays le plus productif devant l'Espagne. Les deux facteurs mentionnés existent probablement dans ce cas: une sous-évaluation du nombre d'utilisateurs cubains et une politique d'état favorisant la production de contenu. Les chiffres très bas des États-Unis et de Porto Rico et le résultat médiocre du Mexique demandent confirmation. Dans l'hypothèse probable où ils pourraient être confirmés (même dans une mesure moindre) ils pourraient donner une claire indication aux décideurs politiques espagnols d'une stratégie efficace pour obtenir de meilleurs résultats de présence de leur langue dans la Toile.

Il existe bien sûr des pages en espagnol dans les pays où l'espagnol n'est pas parlé et où le multilinguisme est un facteur important: d'après notre calcul cela représente un peu plus de 6% du total des contenus en espagnol.

Il nous reste maintenant à renforcer la méthode par des techniques de recoupement pour mieux délimiter les paramètres d'entrée et ensuite de l'appliquer à d'autres espaces linguistiques comme l'anglais et le français pour en tirer des enseignements nouveaux sur la production de sites dans une langue et un pays donnés.

4 Conclusions

La domination de l'anglais dans l'Internet diminue progressivement et le pourcentage de pages dans cette langue sur la Toile vient de passer sous la valeur symbolique de 50%. Cela contredit le discours dominant qui considère la prédominance de l'anglais comme un fait irrévocable et quantité de références qui persistent à lui attribuer un poids de l'ordre de 80%.

La position dominante des États-Unis est en recul et l'évolution prévisible pourrait montrer des surprises assez rapidement, au point où l'avantage sera donné aux utilisateurs multilingues et aux pays où le multilinguisme est considéré comme un élément politique prioritaire.

Les langues de la latinité progressent fortement (en dehors du roumain). Le français a montré une vitalité notable comme conséquence de politiques internationales de promotion de la francophonie dans l'Internet. Le retard initial de l'espagnol et du portugais se résorbe et une ligne stratégique évidente pour la consolidation des langues latines est l'alliance entre les espaces latins: francophone, hispanophone et lusophone (à laquelle l'Italie qui monte une incroyable vitalité dans l'Internet, pourrait être adjointe).

Il semble établi que l'amélioration de la présence linguistique entraîne logiquement des progrès équivalents dans la représentation des cultures. Les résultats montrent aussi que la présence d'une langue dans l'Internet est directement proportionnelle a la présence des utilisateurs de l'Internet qui sont locuteurs de cette langue: cela est un indicateur clair pour l'établissement de politiques publiques.

La connaissance des chiffres de présence des langues dans l'Internet est une donnée fondamentale pour l'élaboration de stratégies au niveau national et il n'est pas sain que l'observation soit laissée aux acteurs du monde des affaires avec des critères d'un niveau scientifique douteux. Les décideurs de politiques publiques pour la société de l'information doivent mettre en place, dans les pays où il y a une préoccupation réelle, des moyens pour une observation sérieuse et s'appuyer sur les secteurs académiques et de la société civile.

Les langues occidentales principales se portent bien, il est urgent que les langues minoritaires veillent, au Nord comme au Sud, à assurer une représentation équitable dans l'Internet.

5 Sources, références et bibliographie

5.1Sites web de référence

Études sur la présence des langues dans la Toile.

Référence démo-linguistique

Données démographiques au sujet de l'Internet (en anglais)

5.2 Bibliographie


1 Et souvent dans les pays du Sud des pionniers travaillant dans le champ du développement comme APC (http://www.apc.org) ou FUNREDES.
2 La meilleure référence à ce sujet reste l'ouvrage de John Quarterman, "The Matrix: Computer Networks and Conferencig Systems Worldwide", Bedford, Digital Equipment Corporation, qui en 1990 a su faire l'inventaire des réseaux qui existaient avant que Internet ne devienne le protocole de convergence.
3 Au crédit de l'École des Mines à Paris.
4 Un schéma de codification des caractères qui dans sa version restreinte à 7 bits ne permet pas de représenter les caractères accentués.
5 Avec le protocole MIME.
6 Et en particulier de l'IETF (Internet Engineering Task Force).
7 Chacun est libre de proposer un changement à l’architecture en suivant la procédure des "RFC" (Request For Change – proposition de modification -) et des groupes ouverts discuteront des mérites et des défauts et éventuellement accepteront la proposition ou la rejetteront dans le cadre d'un débat ouvert et non hiérarchisé.
8 Le HTML ("hyper text mark-up language", langage de codification de documents hypertextuels).
9 En 1976, l'auteur de cet article, architecte de système de télécommunications à IBM France, utilisait couramment dans son travail, à l'instar de quelques dizaines de milliers de collègues du monde de l'informatique, le courrier électronique, la fonction FTAM pour transmettre des fichiers (équivalent du FTP de Internet) , la fonction PASSTHRU pour accéder à son compte pendant les déplacements (équivalent du TELNET) et GRAND (équivalent du LISTSERV) pour gérer ses groupes de discussion...
10 Qu'elle a appliqué au Pérou (1991), en République Dominicaine (1992) et en Haïti (1993).
11 Il est facile de constater que les algorithmes de reconnaissance de langues des moteurs de recherche ne sont pas suffisamment fiables pour garantir des extrapolations crédibles.
12 Il est important de comprendre que l'équivalence absolue n'existe dans la réalité ni en signification ni en portée. Il ne peut donc être question que d'une approximation et la méthode doit rechercher à éviter les obstacles principaux et tendre ainsi vers un idéal d'équivalence qui reste toutefois arbitraire. Le choix de l'échantillon de concept est fondamental dans ce contexte. Les termes qui ont, pour des raisons culturelles, un poids relatif plus fort dans une langue (comme cuisine pour le français ou taureau pour l'espagnol) ont bien sûr été rejetés.
13 La méthode de mesure fournit des résultats en termes de pourcentage de pages web par rapport à un total de pages web qui est en fait une inconnue. Cela nous conduit à élaborer des indicateurs en forme de rapport de pourcentages, ce qui représente une approche peu orthodoxe et qui pourrait rebuter les spécialistes de la statistique. Si nous prenons une hypothèse sur le nombre total de pages web dans l'Internet pour chacune des dates de mesure nous pouvons construire des indicateurs avec les mêmes valeurs qui exprimeraient le rapport entre le nombre de pages produites par locuteur dans une langue donnée par le nombre moyen de pages produites par chaque être humain, indépendamment de la langue. Ces résultats sont soutenues également par l'hypothèse simplificatrice que des pages web ne peuvent être produites dans une langue donnée que par les locuteurs comptabilisés dans le tableau précédent. Il est évident que le chiffre de sites web dans une langue donnée produite par des non locuteurs de cette langue n'est pas nulle (autrement dit que notre hypothèse est fausse) , surtout en ce qui concerne l'anglais, mais il paraît raisonnable de le considérer marginal.
14 Ce rapport de pourcentages est proportionnel au rapport du nombre de pages dans une langue par le nombre d'internautes dans cette langue. Il y a environ 6 milliards d'êtres humains sur la terre et aujourd'hui le nombre de pages sur le web est très proche de 6 milliards, ce qui donne une proportion de une page produite par être humain. Le rapport actuel P/I en termes absolus est 10 fois supérieur au rapport exprimés à partir des pourcentages soit 10,9 pages produites en moyenne par internaute anglophone.
15 Nous leur accordons une confiance qui devrait situer la réalité dans une fenêtre de plus ou moins 30% par rapport au chiffres annoncés.
16 La meilleure méthode pondère cette évaluation en fonction de la réputation des revues scientifiques où sont référencés les articles; nous n'irons pas jusque là dans notre méthode pour la culture.
17 Principalement pour les lettres anglaises.
18 Principalement pour le cinéma anglais.
19 Principalement pour les arts plastiques hollandais.
20 La chanson anglaise est en première position dans cette catégorie.
21 Nous avons inclus le Brésil bien qu'il ne s'agisse pas d'un pays hispanophone, considérant que son insertion dans le contexte économique du MercoSur devait inciter la production de contenus en espagnol. Le résultat confirme l'hypothèse puisque la production est proche de celle de l'Uruguay!
22 Ricardo Baeza-Yates du Chili, Erick Iriarte du Pérou et Oscar Roblés-Garay du Mexique.
23 La raison est une politique d'attribution de noms de domaines (trop?) strictement liée au critère de protection de noms de marque.
24 D'après un travail de Ricardo Baeza-Yates pour Akwan, 2001 (http://www.akwan.com.br).
25 Marge supérieure de l'hypothèse de travail de Funredes laquelle considère que le pourcentage de sites américains hors .US se situe entre 94% y 98%.