Lenguas & Culturas Título:  Cliquear a la izquierda para ir a FUNREDES
Resumen del proyecto
Contactar a FUNREDES
Página principal de Lenguas & Culturas Al estudio L1 Al estudio L2 Al estudio L3 Al estudio L4 Al estudio L5 Al estudio L6 Al estudio C1 Al estudio C2 Al estudio C3 Al estudio C4
 

Menú

INTRODUCCIÓN

¿QUE HAY DE NUEVO?
ALIS TECHNOLOGIES
ALTA VISTA
LUGAR DE LOS DIACRÍTICOS

LOS RESULTADOS

COMENTARIOS

TENDENCIAS

CONCLUSIÓN

L3:  El tercer estudio de la lengua y la Internet

PONDERACIÓN COMPARATIVA DE LA PRESENCIA DE UNA SELECCIÓN DE PALABRAS EN LAS PÁGINAS WEB

Presentación a la conferencia Visionarios, Caracas, 22-24/4/98
Autor: Daniel Pimienta, FUNREDES.

Agradecimientos a la Unión Latina, Marcelo Sztrum, Catherine Dhaussy y Daniel Prado.


Introducción

Esta tercera actualización muestra esencialmente que el francés sigue progresando más rápido que el inglés, pero sigue manteniendo la tendencia relativamente lenta de 1997. En cuanto al castellano, continúa su progresión rápida y se acerca aun más al francés. La ventaja del francés con respecto al castellano había pasado de 140% en 1996 a 92% en 1997 y se reduce ahora a 39%. Las extrapolaciones muestran una relación de 1 a 9 entre francés e inglés para el año 2000 y la igualación del castellano y el francés para ese entonces.

¿Qué hay de nuevo en cuanto a las mediciones de la presencia de los idiomas en Internet?

ALIS TECHNOLOGIES
[REGRESAR AL PRINCIPIO DE LA PÁGINA]

En primer lugar, un estudio de Alis Technologies con el apoyo de Internet Society: "Palmarès des langues de la toile". Autodenominado "primer estudio de envergadura", anuncia "un método riguroso de exploración del web". Se basa en una metodología muy distinta de la nuestra, en que el procesamiento informático tiene un papel preponderante, en particular un programa de reconocimiento automático de varios idiomas (17 en total) en el espacio web. El protocolo de medición consiste en elegir aleatoriamente 60 000 sitios Internet a partir de su número IP (ver nota ), determinar un subconjunto válido apto para la medición de 8 000 sitios web y aplicarles el programa de reconocimiento. Al resultado obtenido, se le aplican luego correcciones, pero no especifican de qué tipo. Es un procedimiento interesante ya que se puede automatizar y reproducir a voluntad y aplicarse simultáneamente a varios idiomas.

Los resultados de Alis muestran, en relación con nuestro trabajo, una presencia mucho mayor del inglés (82% en vez de 70%). La relación francés/español , en cambio, es cercana a la nuestra.

La diferencia más importante entre uno y otro trabajo estriba en las ambiciones respectivas: si para el estudio de Funredes sólo se trata de proporcionar una estimación muy aproximada, Alis muestra una ambición mayor en cuanto a la validez de sus cifras.

Veamos más de cerca la metodología de Alis.

  1. En cuanto al programa de reconocimiento de idiomas, por ahora resulta imposible establecer un juicio de valor: sólo podríamos hacerlo comparando resultados obtenidos según distintos métodos.
  2. A nivel estadístico, en cambio, el método nos parece criticable. ¿Por qué una muestra de 8 000 páginas web elegidas al azar a partir de un universo de más de 100 millones de páginas podría constituir una base seria para proceder a la extrapolación? Por cierto, los especialistas en encuestas de opinión han demostrado su increíble capacidad para extrapolar intenciones de voto, con notable precisión, a partir de muestreos de 2 000 votantes respecto de un total de 50 millones. Pero justamente: el muestreo con que trabajan no fue establecido al azar, todo lo contrario: lo determinan a partir normas muy determinadas en que las proporciones de ciertos parámetros (sociales, económicos, geográficos, etc.) son calibradas con extrema precisión.
  3. El citado inconveniente hubiera podido, sin embargo, dejar de ser tal en caso de haberse repetido la operación varias decenas de veces y publicado un promedio de los resultados obtenidos, sobre todo si la variación era pequeña. Pero esto parece imposible, dada la necesidad de muchas verificaciones "a mano" dentro del procedimiento automático. E inclusive, de haberse medido al menos tres muestreos distintos, menor habría sido nuestra incertidumbre -y nuestra inquietud al respecto habría desaparecido, o bien...se habría justificado más plenamente.
  4. El criterio y la manera en que se realizan los ajustes correctivos de los resultados son inaccesibles, misteriosos -lo que parece ser casi una característica del estudio :-)...
  5. Por último, Alis no pretende, por el momento al menos, medir otra cosa que la presencia de los idiomas en el espacio web. No se ocupan de otros espacios ni tampoco abordan mediciones culturales - lo que constituye en realidad lo esencial de nuestro trabajo.

Conclusión: los límites actuales del estudio de Alis nos alientan a proseguir con nuestro abordaje y a hacerlo inclusive más sistemático a nivel lingüístico, de modo de aumentar la fiabilidad en la medición de la presencia de los idiomas de que nos ocupamos en Internet.

ALTAVISTA
[REGRESAR AL PRINCIPIO DE LA PÁGINA]

El potente buscador de Digital Corp. presenta novedades: integra los diacríticos (acentos y otros caracteres "especiales" en relación con el inglés) e introduce, como Alis, un factor de reconocimiento de idiomas (Alis reconoce 17 idiomas y AltaVista dice identificar páginas web de 25 idiomas diferentes). A primera vista, los respectivos algoritmos son distintos.

En cambio, las dimensiones del universo considerado por AltaVista no han variado: siguen siendo de unos 100 millones de sitios web respecto de un universo de gran crecimiento exponencial. En proporción relativa, es probable que AltaVista haya debido pasar de una cobertura de un 70% a una cobertura mucho más reducida, quizás de alrededor de 20%. Este porcentaje sigue siendo suficiente para extrapolar nuestros resultados; pero, por el contrario, cabe preguntarse si este abordaje no favorece los sitios de mayor antigüedad y por lo tanto aquellos en inglés.

El estudio de la evolución del buscador AltaVista nos reserva importantes sorpresas y, como veremos, nos va a hacer necesario considerar buscadores para avanzar en nuestro estudio.

Lugar de los diacríticos
[REGRESAR AL PRINCIPIO DE LA PÁGINA]

A partir de determinados recortes en la selección, podemos comprobar que la búsqueda sin diacríticos incluye todas las combinaciones de la palabra indicada con diacríticos. Así por ejemplo, la búsqueda en francés de "peche" incluye "peche", "pêche", "pèche", "péché", y todos los errores de ortografía posibles tales como "péche" ou "pëche". Esto nos alienta a usar la búsqueda sin diacríticos para comparar con el inglés, pero nos exige a la vez un gran cuidado en la selección de las palabras a comparar.

Búsqueda por idioma

Tal como existe en este momento, AltaVista muestra un fenómeno incoherente que nos va a hacer dejarlo de lado para el recuento. Es probable que, por detrás esta incoherencia aparente, pueda hallarse una lógica, pero en todo caso esta lógica no es compatible con el objetivo del recuento. Se trata de lo siguiente.

El resultado "todos los idiomas" (ANY) parece a veces corresponder a la suma de todos los resultados por idioma o bien es superior, lo que es normal ya que todos los idiomas no están contabilizados y también porque existe cierta cantidad de páginas multilingües. Pero en otros casos (la mayoría de las palabras de nuestro muestreo), el resultado es inferior al de la medición en inglés -y esto es difícil de interpretar...

Veamos algunos ejemplos, a partir de las palabras o expresiones: FUNREDES, FUNDACION REDES Y DESARROLLO, IBERIAN, INTERNET, WEB (EN = inglés; FR = francés; ES = español; DE=alemán):

FUNREDES        ANY EN FR ES DE
# DOCUMENTOS  572   294   85   164   4 
# OCURRENCIAS 4043 4043 4043 4043 4043
2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
"fundacion redes y desarrollo" 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
# DOCUMENTOS 156 26 24 91 0
# OCURRENCIAS 200 31 24 100 0
2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
IBERIAN ANY EN FR ES DE
# DOCUMENTOS 11094 10266 25 214 33
# OCURRENCIAS 18946 18946 18946 18946 18946
2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
INTERNET 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
# DOCUMENTOS 4846307 7794545 314441 264538 2by2transparent.gif (43 bytes)
# OCURRENCIAS 30098345 30098345 30098345 30098345 2by2transparent.gif (43 bytes)
2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
WEB 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
# DOCUMENTOS 5093017 10397446 244279 191402 2by2transparent.gif (43 bytes)
# OCURRENCIAS 35497288 35497288 35497288 35497288 2by2transparent.gif (43 bytes)

Parecería que, para las palabras corrientes en inglés (¿en el diccionario de AltaVista?) el resultado incluya sistemáticamente un valor "todos los idiomas" inferior al inglés (pero entonces, ¿qué significa este valor?) y que en el caso de las palabras, compuestas o no, inglesas el valor "todos los idiomas" sea cercano a la suma de valores idioma. Hemos pedido una aclaración al respecto a AltaVista y estamos esperando la respuesta.

AltaVista da dos resultados de recuento. El primero, arriba de la página, es el número total de páginas de su selección que mencionan la palabra buscada ("documentos"). El segundo, abajo, indica la cantidad de veces que la palabra buscada aparece en las páginas de la selección ("ocurrencias"). También aquí aparece una incoherencia: a veces la segunda cantidad es idéntica en cada uno de los idiomas; a veces, el resultado es diferente según el idioma de que se trate (aparentemente en las expresiones compuestas por varias palabras como "fundacion redes y desarrollo").

Pero aunque esta anomalía represente un obstáculo para la medición, puede establecerse con algo de astucia una comparación entre el algoritmo de Alis y el de AltaVista. En efecto, si buscamos con AltaVista el conjunto de los documentos que incluyan todas las palabras menos una probablemente inexistente (por ejemplo: " - qwxk49fnr8e4"), el resultado parece ser la cantidad total de páginas que el algoritmo de AltaVista considera que pertenecen a una lengua dada. Y, por supuesto , con la opción "todos los idiomas" tenemos la medida del universo total de las páginas de AltaVista: algo más de 100 millones en el momento de la medición. Recortes que incluyan palabras o combinaciones muy frecuentes (por ejemplo "de+il" en francés) confirman la validez del resultado. En este sentido, nuestras experiencias muestran que si la medición de palabras cortas muy frecuentes pudo dar aparentemente resultados convincentes en algún estudio, este método da hoy valores poco fiables.

Cuadro comparativo AltaVista / Alis

2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) ALTAVISTA ALIS
2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) RECUENTO GLOBAL RESULTADOS
ANY 107958869 % SIN %CON(*) SIN CON
2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) CORRECCION CORRECCION
INGLES 70065677 64.90% 76.35% 84.00 82.30
JAPONES 4369675 4.05% 4.76% 3.10 1.6
ALEMAN 4009554 3.71% 4.37% 4.50 4.00
FRANCES 1951446 1.81% 2.13% 1.8 1.5
ESPAÑOL 1495195 1.38% 1.63% 1.20 1.10
ITALIANO 1490109 1.38% 1.62% 1.00 0.80
PORTUGES 905676 0.84% 0.99% 0.70 0.70
HOLANDES 849045 0.79% 0.93% 0.6 0.4
SUECO 804266 0.74% 0.88% 1.10 0.60
CHINO 742741 0.69% 0.81% 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
RUSO 499447 0.46% 0.54% 0.30 0.10
CHECO 469659 0.44% 0.51% 0.30 0.30
FINLANDES 411951 0.38% 0.45% 0.40 0.30
NORUEGO 336751 0.31% 0.37% 0.60 0.30
DANES 300481 0.28% 0.33% 0.30 0.30
POLACO 280975 0.26% 0.31% 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
COREANO 215064 0.20% 0.23% 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
HONGARO 197043 0.18% 0.21% 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
2by2transparent.gif (43 bytes)GRIEGO 83780 0.08% 0.09% 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
ESTONIO 78955 0.07% 0.09% 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
HEBREO 48843 0.05% 0.05% 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
ISLANDES 34749 0.03% 0.04% 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
ROMANO 28052 0.03% 0.03% 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
LETON 22616 0.02% 0.02% 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
LITUANO 20539 0.02% 0.02% 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes) 2by2transparent.gif (43 bytes)
RESTO DE LOS IDIOMAS 18246580 16.90% 2by2transparent.gif (43 bytes) Sitios multilenguas
RESTO CORREGIDO (*) 2052750 2.24% 2by2transparent.gif (43 bytes) 15% 2by2transparent.gif (43 bytes)

(*) Es necesario operar una corrección para tener en cuenta la diferencia entre el total y la suma de los idiomas medidos. ¿Qué representa este valor de cerca del 17%? Teóricamente, podría representar la suma de los valores de los idiomas no medidos. Pero es un porcentaje demasiado grande para esto. Quizás, además de los valores de los idiomas no medidos se incluyan los sitios web multilingües que el algoritmo no supo clasificar. Que la cifra sea tan grande nos hace pensar que no se contabilizan los sitios multilingües en varios idiomas (si así no fuera, el total podría ser inferior a la suma de los recuentos por idioma). Vamos luego a trabajar con la hipótesis de que "el resto" representa el recuento de los sitios multilingües y de los sitios en los idiomas que el algoritmo no reconoce... así como los sitios que el algoritmo no reconoce aunque estén redactados en uno de los idiomas "reconocidos" (errores del algoritmo), contando también las páginas que presentan símbolos no incluibles dentro de un idioma (imágenes, fórmulas...). Y seguiremos también la hipótesis (¡probablemente falsa!) de que existe la misma proporción de errores en todos los idiomas y por lo tanto los vamos a ignorar. Nos queda por fijar un parámetro para la distribución de los sitios multilingües y de los demás idiomas. Tras varios ensayos, elegimos la pareja 15% de sitios multilingües (o lingüísticamente neutros) y 2,24% de sitios en los demás idiomas (por ejemplo, 100 idiomas a 0,02%), porque nos parece el más plausible.

La comparación da así un valor más importante para el inglés con el método de Alis que con el método que llamamos "complemento del conjunto vacío" en AltaVista. Pero justamente, como veremos más adelante, nuestro método de recuento por palabras nos hace sospechar que el recuento de AltaVista también da ventajas al inglés. Lo que permite interrogarse respecto de los resultados de Alis Technologies y justifica un estudio con criterios lingüísticos más elaborados.

La comparación entre los tres métodos arroja los resultados siguientes:

2by2transparent.gif (43 bytes) INGLES/FRANCES FRANCES/ESPAÑOL
MÉTODO COMPLEMENTO DEL CONJUNTO VACIO 35.90 1.31
MÉTODO ALIS 46.67 1.36
MÉTODO FUNREDES 1115708 1.33

MEDICIONES DE FEBRERO DE 1998
[REGRESAR AL PRINCIPIO DE LA PÁGINA]

Las novedades de AltaVista y las anomalías constatadas nos llevaron a realizar recortes valiéndonos de otros buscadores. Hemos obtenido así un juego de cinco mediciones:

M1 : Con Hotbot (sumando con y sin diacríticos)
M2 : Con Excite (sumando con y sin diacríticos)
M3 : Con AltaVista todos los idiomas sin diacríticos
M4 : Con AltaVista por idioma sin diacríticos
M5 : La suma de los dos resultados anteriores

Habíamos pensado que, para comparar con nuestros resultados de las anteriores ediciones del estudio, el indicador M5 sería, pese a la reserva mencionada, el más adecuado. Pero los resultados de correlación nos hacen corregir esta previsión y considerar en cambio el indicador M3, independiente del algoritmo de idioma.

SÍNTESIS DE LOS RESULTADOS

2by2transparent.gif (43 bytes) INGLES FRANCES ESPAÑOL IN/FR FR/ES IN/ES
M1: HOTBOT FEBRERO 98 100221545 6090080 3230690 16.46 1.89 31.02
M2: EXCITE FEBRERO 98 23689345 1430583 910317 16.56 1.57 26.02
M3: ALTAVISTA TODOS LOS IDIOMAS 2/98 26017027 1478396 1115708 17.60 1.33 23.32
M4: ALTAVISTA POR IDIOMA 70718558 2946712 2058398 24.00 1.43 34.36
M5: M3+M4 96735585 4425108 3174106 21.86 1.39 30.48

COMENTARIOS
[REGRESAR AL PRINCIPIO DE LA PÁGINA]

Hay cierta coherencia entre los resultados de los tres buscadores, pero también diferencias importantes. Parecería que AltaVista favorece menos al inglés que los otros dos. ¿Puede explicarse esta diferencia por la introducción en AltaVista del reconocimiento de idiomas? Probablemente. ¿Qué valor otorgar ahora al estudio de tendencia? Nos quedamos con algunas dudas, al respecto, lo que justifica retomar el estudio valiéndonos de una metodología más sólida tanto desde el punto de vista lingüístico como desde el punto de vista técnico.

TENDENCIAS
[REGRESAR AL PRINCIPIO DE LA PÁGINA]

2by2transparent.gif (43 bytes) IN/FR FR/ES
PROMEDIO MARZO 1996 21.91 2.40
PROMEDIO MARZO 1997 19.99 1.92
PROMEDIO FEBRERO 1998 17.60 1.33

Las progresiones son casi lineales y la extrapolación muestra una relación inglés/francés igual a 1 en 2006 y una relación francés/español igual a 1 en 2000.

MEDICIÓN DE LOS DIACRÍTICOS

Un resultado interesante para quienes abogan por el uso correcto de los idiomas en la red es la medición de la escritura de las palabras con y sin diacríticos. Los resultados de esta relación son estables según todos los buscadores.

2by2transparent.gif (43 bytes) Frances Español
Porcentaje de sitios sin diacríticos (promedio) 20% 50%

CONCLUSIÓN

Ha llegado el momento de consolidar el método de trabajo con el concurso de lingüistas. En colaboración con la Unión Latina y su equipo de profesionales del idioma, Funredes va a extender el estudio a otros tres idiomas latinos, agregando a la vez un mayor rigor en la metodología lingüística. Estamos estableciendo una lista de palabras que respondan a los mejores criterios en este sentido (¡los obstáculos no faltan!), que nos servirá de base para medir la presencia de los seis idiomas siguientes: inglés, castellano, francés, italiano, portugués y rumano. Publicación de los resultados en unas semanas.



[REGRESAR AL PRINCIPIO DE LA PÁGINA]


[email protected]
Copyright © 1995-2005 FUNREDES, UNION LATINA, AGENCE DE LA FRANCOPHONIE
Creación: 24 VIII 1998
Fecha de modificación: 13 X 2005
Versión Francés       Versión en Inglés

Regresar a la página precedente
L1    L2     L3    L4    L5    L6     C1    C2    C3    C4
Página principal de Lenguas & Culturas
Página principal de FUNREDES