
Annexe 5 : Interface d'automatisation
de l'étude L5
Introduction
L'obtention de résultats dans l'étude de la place des langues latines sur l'Internet
passe par un travail minutieux, long et répétitif, de mesure des résultats donnés
par les moteurs de recherche. En effet, chaque résultat final (par moteur de
recherche) exige un comptage du nombre de pages contenant chacun des quelque
1200 variantes des 57 termes retenus (1600 depuis que l'allemand a été ajouté).
Ce processus est suivi par des corrections manuelles pour les 73 variantes entraînant
des problèmes d'homographie (en rouge et en majuscule sur le tableau des termes
en annexe 3). Les résultats obtenus pour chaque
variante vont ensuite être groupés par terme et on obtiendra les 57 scores,
ceux-ci classés par langue. On fera ensuite la moyenne des scores et on calculera
le coefficient de variance ainsi que l'intervalle de confiance par langue pour
obtenir le résultat final. Sans oublier bien sûr l'étape minutieuse de vérification
des résultats dont certains auront sans doute été faussés par diverses erreurs
de frappe ou d'inattention engendrées par la succession de tâches répétitives...
Tous ces résultats par variante, par terme ou finaux ne sont absolument pas
souples d'utilisation, une erreur détectée a posteriori dans le recopiage d'un
score nécessite le recalcul systématique de son terme associé ainsi que le recalcul
des statistiques finales. .
Une automatisation de ces procédures manuelles était donc souhaitable. Il a
été décidé d'investir dans la programmation d'un algorithme capable, à partir
des 1600 formes, de faciliter leur recherche par les moteurs, récupérant les
comptages et les organisant de manière à pouvoir, après la gestion des corrections
des homographies, effectuer l'ensemble des calculs statistiques. Cette automatisation
permet de plus d'utiliser plusieurs moteur de recherche sans un travail supplémentaire
trop important.
Technologie utilisée
Pour permettre une gestion optimale du tout, il a été décidé d'utiliser une
structure de base de données, en tant qu'élément central articulant les différentes
applications.
Le gestionnaire de base de données retenu a été PosgreSQL, d'un usage répandu
dans le monde de l'Internet et, pour faire l'interface entre la base de données
et les services de la Toile, le langage de programmation PHP a été choisi.
Détails de fonctionnement du système
Base de données
La base de données comporte trois tables majeures qui sont la charpente du système
automatisé :
- Table des 1600 variantes des termes : dans cette table sont enregistrées
les différentes variantes de l'échantillon. Elles sont classées selon le
terme et la langue à laquelle ils appartiennent et enregistrées avec les
paramètres qui leur sont associés : homographies, etc. L'annexe
3 est une représentation du contenu de cette table.
- Table des scores : y sont conservés tous les résultats (comptage
des pages) récupérés, via l'interface PHP, des services de moteurs de recherche.
Ces scores sont classés en fonction des variantes auxquelles ils se rapportent,
et du moteur sur lequel ce score a été trouvé.
- Table des résultats par terme : une fois les 1600 variantes introduites
dans la base et les scores de chacune d'elles obtenus, les résultats de
chaque terme sont calculés. Cela s'effectue en additionnant les scores des
variantes appartenant au même terme d'une même langue. Ces résultats obtenus
(classés par mot, par moteur et par langue) seront utilisés pour obtenir
les résultats finaux et serviront d'entrée pour les calculs statistiques
prévus.
Le design est ouvert grâce au paramétrage de la liste des langues et des moteurs
utilisés. Cet agencement permet une très grande flexibilité dans la mesure où
on peut ajouter à volonté de nouveaux termes, de nouveaux moteurs et de nouvelles
langues.
Les interfaces PHP
Le système PHP comporte trois
types d'interfaces :
Les interfaces de saisies de données
Ces interfaces servent à remplir les champs variantes et scores de la base
de données.
La première est une interface utilisateur
qui sert à l'administration pour l'introduction des variantes et de leurs
propriétés associées1. La seconde
est une interface machine qui permet, pour chaque moteur considéré, de stocker
les scores obtenus lors d'une exécution du logiciel. Les données saisies sur
la première interface sont conservées entre chaque exécution; ceux de la seconde
interface sont volatiles, remplacés à chaque exécution. Les données que l'on
remplace dans ce processus sont bien entendu archivées au préalable.
Les interfaces de traitement des données
Elles sont de deux types : celles qui permettent de modifier la table "score"
des variantes et celles qui permettent de calculer les valeurs associées à
chaque mot. Les premières sont utilisées pour corriger les problèmes d'homographie
suivants :
Les distorsions les plus fréquentes touchent certaines variantes de pluriel
en -idades communes à l'espagnol et au portugais (-ités en français).
La répartition du comptage entre espagnol et portugais a été faite de façon
automatique au prorata des résultats partiels de l'étude. A partir des résultats
partiels ont été tirés des coefficients (par moteur) du poids de l'espagnol
par rapport au poids du portugais et ces coefficients ont été appliqués pour
répartir les scores des mots en -idades entre l'espagnol et le portugais.
Cal et cai, formes roumaines de cheval, sont homographes
déjà en espagnol, en italien, en portugais... : elles n'ont pas été comptées,
ce qui pénalise un peu le roumain: La forme caii a également été éliminée
parce qu'homographe de sigles fréquents sur en portugais, sans diacritiques:
le résultat indiqué a été calculé a posteriori en utilisant
la même méthode que pour les mots en -idades. La forme roumaine boli
(de maladie) est une abréviation très fréquente de bolígrafo
en espagnol (stylo) et a été éliminée du comptage. Encore en roumain:
joi (jeudi) a trois lettres et est susceptible d'homographie
avec des sigles et joia est homographe du portugais jóia sans
diacritique (bijou) : résultat calculé encore avec la même méthode
que pour les mots en -idades, en se basant sur les coefficients du
roumain par rapport à l'anglais. Marti est homographe du nom d'un personnage
célèbre, le cubain José Martí, sans diacritique, et son score n'a pas
été comptabilisé pour le roumain mardi.
Le score de mardi en français a été diminué du score de mardi gras pour ne
pas comptabiliser cette forme fréquente en anglais.
Les interfaces du second type actualisent la partie "résultats par termes "
de la base de données.
Les interfaces d'affichage des résultats
La base de données utilisée pour stocker les résultats contient :
(a) 1600 variantes de terme classées par terme (57) et par langue (7)
(b) les scores des ces 1600 variantes, mesurés pour 6 moteurs de recherche
(9600 résultats)
(c) les scores des 57 termes, calculés à partir des 9600 résultats pour 6
moteurs et 7 langues (2394 résultats). Ces scores sont visibles sous forme
de chiffres absolus ou en proportion du score de l'anglais.
L'accès à ces informations a nécessité la création d'interfaces d'affichage
des résultats qui devaient respecter ces deux conditions :
- permettre d'obtenir des résultats rapides et ciblés pour l'ensemble des
informations disponibles
- disposer de résultats actualisés chaque fois qu'une modification est faite
dans la base de données.
L'interface permettant d'accéder aux résultats (a) a permis de générer le tableau
de l'annexe 3. Les résultats de (b) sont disponibles
dans l'annexe 8, et ceux du (c) dans l'annexe
9. L'interface de l'annexe 9 calcule aussi la moyenne, l'écart type et le
coefficient de variance des résultats quand les pourcentages sont affichés.
Ce sont aussi les résultats obtenus par cette interface qui permettent d'illustrer
les caractéristiques des moteurs de recherche (annexe
4).
Conclusion et plan pour la prochaine version
Ce système présente une amélioration certaine sur la méthode manuelle.
Il transforme une opération lente et abrutissante qui nécessitait 10 jours de
travail pour 1200 variantes et un seul moteur de recherche en un travail de
2 jours pour 1600 variantes et 6 moteurs de recherche, avec des résultats plus
souples d'utilisation. Ce système permet en outre l'intégration aisée d'autres
langues à étudier, d'autres échantillons linguistiques ou d'autres moteurs de
recherche.
Cette souplesse nous permet d'entrevoir l'ajout de nouvelles fonctionnalités
dans l'avenir pour ce qui concerne la base de données et les interfaces. Une
sauvegarde régulière et datée des résultats permettra une analyse dynamique
de l'évolution de la présence sur l'Internet des langues étudiées et transformer
ainsi cette étude en un véritable observatoire permanent de ces évolutions.
Ces résultats peuvent aussi permettre d'évaluer la façon dont chaque moteur
traite le plurilinguisme de l'Internet.
- Langue, termes associés, problèmes d'homographie, variantes sans diacritiques.
|