Annexe 5 : Interface d'automatisation de l'étude L5

Introduction

L'obtention de résultats dans l'étude de la place des langues latines sur l'Internet passe par un travail minutieux, long et répétitif, de mesure des résultats donnés par les moteurs de recherche. En effet, chaque résultat final (par moteur de recherche) exige un comptage du nombre de pages contenant chacun des quelque 1200 variantes des 57 termes retenus (1600 depuis que l'allemand a été ajouté). Ce processus est suivi par des corrections manuelles pour les 73 variantes entraînant des problèmes d'homographie (en rouge et en majuscule sur le tableau des termes en annexe 3). Les résultats obtenus pour chaque variante vont ensuite être groupés par terme et on obtiendra les 57 scores, ceux-ci classés par langue. On fera ensuite la moyenne des scores et on calculera le coefficient de variance ainsi que l'intervalle de confiance par langue pour obtenir le résultat final. Sans oublier bien sûr l'étape minutieuse de vérification des résultats dont certains auront sans doute été faussés par diverses erreurs de frappe ou d'inattention engendrées par la succession de tâches répétitives...

Tous ces résultats par variante, par terme ou finaux ne sont absolument pas souples d'utilisation, une erreur détectée a posteriori dans le recopiage d'un score nécessite le recalcul systématique de son terme associé ainsi que le recalcul des statistiques finales. .

Une automatisation de ces procédures manuelles était donc souhaitable. Il a été décidé d'investir dans la programmation d'un algorithme capable, à partir des 1600 formes, de faciliter leur recherche par les moteurs, récupérant les comptages et les organisant de manière à pouvoir, après la gestion des corrections des homographies, effectuer l'ensemble des calculs statistiques. Cette automatisation permet de plus d'utiliser plusieurs moteur de recherche sans un travail supplémentaire trop important.

Technologie utilisée

Pour permettre une gestion optimale du tout, il a été décidé d'utiliser une structure de base de données, en tant qu'élément central articulant les différentes applications.

Le gestionnaire de base de données retenu a été PosgreSQL, d'un usage répandu dans le monde de l'Internet et, pour faire l'interface entre la base de données et les services de la Toile, le langage de programmation PHP a été choisi.

Détails de fonctionnement du système

Base de données

La base de données comporte trois tables majeures qui sont la charpente du système automatisé :

Table des 1600 variantes des termes : dans cette table sont enregistrées les différentes variantes de l'échantillon. Elles sont classées selon le terme et la langue à laquelle ils appartiennent et enregistrées avec les paramètres qui leur sont associés : homographies, etc. L'annexe 3 est une représentation du contenu de cette table.
Table des scores : y sont conservés tous les résultats (comptage des pages) récupérés, via l'interface PHP, des services de moteurs de recherche. Ces scores sont classés en fonction des variantes auxquelles ils se rapportent, et du moteur sur lequel ce score a été trouvé.
Table des résultats par terme : une fois les 1600 variantes introduites dans la base et les scores de chacune d'elles obtenus, les résultats de chaque terme sont calculés. Cela s'effectue en additionnant les scores des variantes appartenant au même terme d'une même langue. Ces résultats obtenus (classés par mot, par moteur et par langue) seront utilisés pour obtenir les résultats finaux et serviront d'entrée pour les calculs statistiques prévus.

Le design est ouvert grâce au paramétrage de la liste des langues et des moteurs utilisés. Cet agencement permet une très grande flexibilité dans la mesure où on peut ajouter à volonté de nouveaux termes, de nouveaux moteurs et de nouvelles langues.

Les interfaces PHP

Le système PHP comporte trois types d'interfaces :

Les interfaces de saisies de données
Ces interfaces servent à remplir les champs variantes et scores de la base de données.

La première est une interface utilisateur qui sert à l'administration pour l'introduction des variantes et de leurs propriétés associées¹. La seconde est une interface machine qui permet, pour chaque moteur considéré, de stocker les scores obtenus lors d'une exécution du logiciel. Les données saisies sur la première interface sont conservées entre chaque exécution; ceux de la seconde interface sont volatiles, remplacés à chaque exécution. Les données que l'on remplace dans ce processus sont bien entendu archivées au préalable.

Les interfaces de traitement des données

Elles sont de deux types : celles qui permettent de modifier la table "score" des variantes et celles qui permettent de calculer les valeurs associées à chaque mot. Les premières sont utilisées pour corriger les problèmes d'homographie suivants :

-idades

-ités

-idades

Cal

cai

cheval

caii

a posteriori

-idades

boli

maladie

bolígrafo

stylo

joi

jeudi

joia

jóia

bijou

-idades

Marti

José Martí

mardi

Les interfaces du second type actualisent la partie "résultats par termes " de la base de données.

Les interfaces d'affichage des résultats

La base de données utilisée pour stocker les résultats contient :

(a) 1600 variantes de terme classées par terme (57) et par langue (7)

(b) les scores des ces 1600 variantes, mesurés pour 6 moteurs de recherche (9600 résultats)

(c) les scores des 57 termes, calculés à partir des 9600 résultats pour 6 moteurs et 7 langues (2394 résultats). Ces scores sont visibles sous forme de chiffres absolus ou en proportion du score de l'anglais. L'accès à ces informations a nécessité la création d'interfaces d'affichage des résultats qui devaient respecter ces deux conditions :

permettre d'obtenir des résultats rapides et ciblés pour l'ensemble des informations disponibles
disposer de résultats actualisés chaque fois qu'une modification est faite dans la base de données.

L'interface permettant d'accéder aux résultats (a) a permis de générer le tableau de l'annexe 3. Les résultats de (b) sont disponibles dans l'annexe 8, et ceux du (c) dans l'annexe 9. L'interface de l'annexe 9 calcule aussi la moyenne, l'écart type et le coefficient de variance des résultats quand les pourcentages sont affichés. Ce sont aussi les résultats obtenus par cette interface qui permettent d'illustrer les caractéristiques des moteurs de recherche (annexe 4).

Conclusion et plan pour la prochaine version

Ce système présente une amélioration certaine sur la méthode manuelle. Il transforme une opération lente et abrutissante qui nécessitait 10 jours de travail pour 1200 variantes et un seul moteur de recherche en un travail de 2 jours pour 1600 variantes et 6 moteurs de recherche, avec des résultats plus souples d'utilisation. Ce système permet en outre l'intégration aisée d'autres langues à étudier, d'autres échantillons linguistiques ou d'autres moteurs de recherche.

Cette souplesse nous permet d'entrevoir l'ajout de nouvelles fonctionnalités dans l'avenir pour ce qui concerne la base de données et les interfaces. Une sauvegarde régulière et datée des résultats permettra une analyse dynamique de l'évolution de la présence sur l'Internet des langues étudiées et transformer ainsi cette étude en un véritable observatoire permanent de ces évolutions. Ces résultats peuvent aussi permettre d'évaluer la façon dont chaque moteur traite le plurilinguisme de l'Internet.

Retour en haut de la page

Langue, termes associés, problèmes d'homographie, variantes sans diacritiques.