L4 Title

Annexe 5 : Interface d'automatisation de l'étude L5

Introduction

L'obtention de résultats dans l'étude de la place des langues latines sur l'Internet passe par un travail minutieux, long et répétitif, de mesure des résultats donnés par les moteurs de recherche. En effet, chaque résultat final (par moteur de recherche) exige un comptage du nombre de pages contenant chacun des quelque 1200 variantes des 57 termes retenus (1600 depuis que l'allemand a été ajouté). Ce processus est suivi par des corrections manuelles pour les 73 variantes entraînant des problèmes d'homographie (en rouge et en majuscule sur le tableau des termes en annexe 3). Les résultats obtenus pour chaque variante vont ensuite être groupés par terme et on obtiendra les 57 scores, ceux-ci classés par langue. On fera ensuite la moyenne des scores et on calculera le coefficient de variance ainsi que l'intervalle de confiance par langue pour obtenir le résultat final. Sans oublier bien sûr l'étape minutieuse de vérification des résultats dont certains auront sans doute été faussés par diverses erreurs de frappe ou d'inattention engendrées par la succession de tâches répétitives...

Tous ces résultats par variante, par terme ou finaux ne sont absolument pas souples d'utilisation, une erreur détectée a posteriori dans le recopiage d'un score nécessite le recalcul systématique de son terme associé ainsi que le recalcul des statistiques finales. .

Une automatisation de ces procédures manuelles était donc souhaitable. Il a été décidé d'investir dans la programmation d'un algorithme capable, à partir des 1600 formes, de faciliter leur recherche par les moteurs, récupérant les comptages et les organisant de manière à pouvoir, après la gestion des corrections des homographies, effectuer l'ensemble des calculs statistiques. Cette automatisation permet de plus d'utiliser plusieurs moteur de recherche sans un travail supplémentaire trop important.

Technologie utilisée


Pour permettre une gestion optimale du tout, il a été décidé d'utiliser une structure de base de données, en tant qu'élément central articulant les différentes applications.

Le gestionnaire de base de données retenu a été PosgreSQL, d'un usage répandu dans le monde de l'Internet et, pour faire l'interface entre la base de données et les services de la Toile, le langage de programmation PHP a été choisi.

Détails de fonctionnement du système

Base de données

La base de données comporte trois tables majeures qui sont la charpente du système automatisé : Le design est ouvert grâce au paramétrage de la liste des langues et des moteurs utilisés. Cet agencement permet une très grande flexibilité dans la mesure où on peut ajouter à volonté de nouveaux termes, de nouveaux moteurs et de nouvelles langues.

Les interfaces PHP

Le système PHP comporte trois types d'interfaces :

Les interfaces de saisies de données
Ces interfaces servent à remplir les champs variantes et scores de la base de données.

La première est une interface utilisateur qui sert à l'administration pour l'introduction des variantes et de leurs propriétés associées1. La seconde est une interface machine qui permet, pour chaque moteur considéré, de stocker les scores obtenus lors d'une exécution du logiciel. Les données saisies sur la première interface sont conservées entre chaque exécution; ceux de la seconde interface sont volatiles, remplacés à chaque exécution. Les données que l'on remplace dans ce processus sont bien entendu archivées au préalable.

Les interfaces de traitement des données

Elles sont de deux types : celles qui permettent de modifier la table "score" des variantes et celles qui permettent de calculer les valeurs associées à chaque mot. Les premières sont utilisées pour corriger les problèmes d'homographie suivants :

Les interfaces du second type actualisent la partie "résultats par termes " de la base de données.

Les interfaces d'affichage des résultats

La base de données utilisée pour stocker les résultats contient :

L'accès à ces informations a nécessité la création d'interfaces d'affichage des résultats qui devaient respecter ces deux conditions : L'interface permettant d'accéder aux résultats (a) a permis de générer le tableau de l'annexe 3. Les résultats de (b) sont disponibles dans l'annexe 8, et ceux du (c) dans l'annexe 9. L'interface de l'annexe 9 calcule aussi la moyenne, l'écart type et le coefficient de variance des résultats quand les pourcentages sont affichés. Ce sont aussi les résultats obtenus par cette interface qui permettent d'illustrer les caractéristiques des moteurs de recherche (annexe 4).

Conclusion et plan pour la prochaine version

Ce système présente une amélioration certaine sur la méthode manuelle. Il transforme une opération lente et abrutissante qui nécessitait 10 jours de travail pour 1200 variantes et un seul moteur de recherche en un travail de 2 jours pour 1600 variantes et 6 moteurs de recherche, avec des résultats plus souples d'utilisation. Ce système permet en outre l'intégration aisée d'autres langues à étudier, d'autres échantillons linguistiques ou d'autres moteurs de recherche.

Cette souplesse nous permet d'entrevoir l'ajout de nouvelles fonctionnalités dans l'avenir pour ce qui concerne la base de données et les interfaces. Une sauvegarde régulière et datée des résultats permettra une analyse dynamique de l'évolution de la présence sur l'Internet des langues étudiées et transformer ainsi cette étude en un véritable observatoire permanent de ces évolutions. Ces résultats peuvent aussi permettre d'évaluer la façon dont chaque moteur traite le plurilinguisme de l'Internet.

Retour en haut de la page

  1. Langue, termes associés, problèmes d'homographie, variantes sans diacritiques.