L3: El tercer estudio de la lengua y la Internet

Menú

¿QUE HAY DE NUEVO?
ALIS TECHNOLOGIES
ALTA VISTA
LUGAR DE LOS DIACRÍTICOS

PONDERACIÓN COMPARATIVA DE LA PRESENCIA DE UNA SELECCIÓN DE PALABRAS EN LAS PÁGINAS WEB

Presentación a la conferencia Visionarios, Caracas, 22-24/4/98
Autor: Daniel Pimienta, FUNREDES.
Agradecimientos a la Unión Latina, Marcelo Sztrum, Catherine Dhaussy y Daniel Prado.

Introducción

Esta tercera actualización muestra esencialmente que el francés sigue progresando más rápido que el inglés, pero sigue manteniendo la tendencia relativamente lenta de 1997. En cuanto al castellano, continúa su progresión rápida y se acerca aun más al francés. La ventaja del francés con respecto al castellano había pasado de 140% en 1996 a 92% en 1997 y se reduce ahora a 39%. Las extrapolaciones muestran una relación de 1 a 9 entre francés e inglés para el año 2000 y la igualación del castellano y el francés para ese entonces.

¿Qué hay de nuevo en cuanto a las mediciones de la presencia de los idiomas en Internet?

ALIS TECHNOLOGIES
[REGRESAR AL PRINCIPIO DE LA PÁGINA]

En primer lugar, un estudio de Alis Technologies con el apoyo de Internet Society: "Palmarès des langues de la toile". Autodenominado "primer estudio de envergadura", anuncia "un método riguroso de exploración del web". Se basa en una metodología muy distinta de la nuestra, en que el procesamiento informático tiene un papel preponderante, en particular un programa de reconocimiento automático de varios idiomas (17 en total) en el espacio web. El protocolo de medición consiste en elegir aleatoriamente 60 000 sitios Internet a partir de su número IP (ver nota ), determinar un subconjunto válido apto para la medición de 8 000 sitios web y aplicarles el programa de reconocimiento. Al resultado obtenido, se le aplican luego correcciones, pero no especifican de qué tipo. Es un procedimiento interesante ya que se puede automatizar y reproducir a voluntad y aplicarse simultáneamente a varios idiomas.

Los resultados de Alis muestran, en relación con nuestro trabajo, una presencia mucho mayor del inglés (82% en vez de 70%). La relación francés/español , en cambio, es cercana a la nuestra.

La diferencia más importante entre uno y otro trabajo estriba en las ambiciones respectivas: si para el estudio de Funredes sólo se trata de proporcionar una estimación muy aproximada, Alis muestra una ambición mayor en cuanto a la validez de sus cifras.

Veamos más de cerca la metodología de Alis.

En cuanto al programa de reconocimiento de idiomas, por ahora resulta imposible establecer un juicio de valor: sólo podríamos hacerlo comparando resultados obtenidos según distintos métodos.
A nivel estadístico, en cambio, el método nos parece criticable. ¿Por qué una muestra de 8 000 páginas web elegidas al azar a partir de un universo de más de 100 millones de páginas podría constituir una base seria para proceder a la extrapolación? Por cierto, los especialistas en encuestas de opinión han demostrado su increíble capacidad para extrapolar intenciones de voto, con notable precisión, a partir de muestreos de 2 000 votantes respecto de un total de 50 millones. Pero justamente: el muestreo con que trabajan no fue establecido al azar, todo lo contrario: lo determinan a partir normas muy determinadas en que las proporciones de ciertos parámetros (sociales, económicos, geográficos, etc.) son calibradas con extrema precisión.
El citado inconveniente hubiera podido, sin embargo, dejar de ser tal en caso de haberse repetido la operación varias decenas de veces y publicado un promedio de los resultados obtenidos, sobre todo si la variación era pequeña. Pero esto parece imposible, dada la necesidad de muchas verificaciones "a mano" dentro del procedimiento automático. E inclusive, de haberse medido al menos tres muestreos distintos, menor habría sido nuestra incertidumbre -y nuestra inquietud al respecto habría desaparecido, o bien...se habría justificado más plenamente.
El criterio y la manera en que se realizan los ajustes correctivos de los resultados son inaccesibles, misteriosos -lo que parece ser casi una característica del estudio :-)...
Por último, Alis no pretende, por el momento al menos, medir otra cosa que la presencia de los idiomas en el espacio web. No se ocupan de otros espacios ni tampoco abordan mediciones culturales - lo que constituye en realidad lo esencial de nuestro trabajo.

Conclusión: los límites actuales del estudio de Alis nos alientan a proseguir con nuestro abordaje y a hacerlo inclusive más sistemático a nivel lingüístico, de modo de aumentar la fiabilidad en la medición de la presencia de los idiomas de que nos ocupamos en Internet.

ALTAVISTA
[REGRESAR AL PRINCIPIO DE LA PÁGINA]

El potente buscador de Digital Corp. presenta novedades: integra los diacríticos (acentos y otros caracteres "especiales" en relación con el inglés) e introduce, como Alis, un factor de reconocimiento de idiomas (Alis reconoce 17 idiomas y AltaVista dice identificar páginas web de 25 idiomas diferentes). A primera vista, los respectivos algoritmos son distintos.

En cambio, las dimensiones del universo considerado por AltaVista no han variado: siguen siendo de unos 100 millones de sitios web respecto de un universo de gran crecimiento exponencial. En proporción relativa, es probable que AltaVista haya debido pasar de una cobertura de un 70% a una cobertura mucho más reducida, quizás de alrededor de 20%. Este porcentaje sigue siendo suficiente para extrapolar nuestros resultados; pero, por el contrario, cabe preguntarse si este abordaje no favorece los sitios de mayor antigüedad y por lo tanto aquellos en inglés.

El estudio de la evolución del buscador AltaVista nos reserva importantes sorpresas y, como veremos, nos va a hacer necesario considerar buscadores para avanzar en nuestro estudio.

Lugar de los diacríticos
[REGRESAR AL PRINCIPIO DE LA PÁGINA]

A partir de determinados recortes en la selección, podemos comprobar que la búsqueda sin diacríticos incluye todas las combinaciones de la palabra indicada con diacríticos. Así por ejemplo, la búsqueda en francés de "peche" incluye "peche", "pêche", "pèche", "péché", y todos los errores de ortografía posibles tales como "péche" ou "pëche". Esto nos alienta a usar la búsqueda sin diacríticos para comparar con el inglés, pero nos exige a la vez un gran cuidado en la selección de las palabras a comparar.

Búsqueda por idioma

Tal como existe en este momento, AltaVista muestra un fenómeno incoherente que nos va a hacer dejarlo de lado para el recuento. Es probable que, por detrás esta incoherencia aparente, pueda hallarse una lógica, pero en todo caso esta lógica no es compatible con el objetivo del recuento. Se trata de lo siguiente.

El resultado "todos los idiomas" (ANY) parece a veces corresponder a la suma de todos los resultados por idioma o bien es superior, lo que es normal ya que todos los idiomas no están contabilizados y también porque existe cierta cantidad de páginas multilingües. Pero en otros casos (la mayoría de las palabras de nuestro muestreo), el resultado es inferior al de la medición en inglés -y esto es difícil de interpretar...

Veamos algunos ejemplos, a partir de las palabras o expresiones: FUNREDES, FUNDACION REDES Y DESARROLLO, IBERIAN, INTERNET, WEB (EN = inglés; FR = francés; ES = español; DE=alemán):

FUNREDES	ANY	EN	FR	ES	DE
# DOCUMENTOS	572	294	85	164	4
# OCURRENCIAS	4043	4043	4043	4043	4043

"fundacion redes y desarrollo"
# DOCUMENTOS	156	26	24	91	0
# OCURRENCIAS	200	31	24	100	0

IBERIAN	ANY	EN	FR	ES	DE
# DOCUMENTOS	11094	10266	25	214	33
# OCURRENCIAS	18946	18946	18946	18946	18946

INTERNET
# DOCUMENTOS	4846307	7794545	314441	264538
# OCURRENCIAS	30098345	30098345	30098345	30098345

WEB
# DOCUMENTOS	5093017	10397446	244279	191402
# OCURRENCIAS	35497288	35497288	35497288	35497288

Parecería que, para las palabras corrientes en inglés (¿en el diccionario de AltaVista?) el resultado incluya sistemáticamente un valor "todos los idiomas" inferior al inglés (pero entonces, ¿qué significa este valor?) y que en el caso de las palabras, compuestas o no, inglesas el valor "todos los idiomas" sea cercano a la suma de valores idioma. Hemos pedido una aclaración al respecto a AltaVista y estamos esperando la respuesta.

AltaVista da dos resultados de recuento. El primero, arriba de la página, es el número total de páginas de su selección que mencionan la palabra buscada ("documentos"). El segundo, abajo, indica la cantidad de veces que la palabra buscada aparece en las páginas de la selección ("ocurrencias"). También aquí aparece una incoherencia: a veces la segunda cantidad es idéntica en cada uno de los idiomas; a veces, el resultado es diferente según el idioma de que se trate (aparentemente en las expresiones compuestas por varias palabras como "fundacion redes y desarrollo").

Pero aunque esta anomalía represente un obstáculo para la medición, puede establecerse con algo de astucia una comparación entre el algoritmo de Alis y el de AltaVista. En efecto, si buscamos con AltaVista el conjunto de los documentos que incluyan todas las palabras menos una probablemente inexistente (por ejemplo: " - qwxk49fnr8e4"), el resultado parece ser la cantidad total de páginas que el algoritmo de AltaVista considera que pertenecen a una lengua dada. Y, por supuesto , con la opción "todos los idiomas" tenemos la medida del universo total de las páginas de AltaVista: algo más de 100 millones en el momento de la medición. Recortes que incluyan palabras o combinaciones muy frecuentes (por ejemplo "de+il" en francés) confirman la validez del resultado. En este sentido, nuestras experiencias muestran que si la medición de palabras cortas muy frecuentes pudo dar aparentemente resultados convincentes en algún estudio, este método da hoy valores poco fiables.

Cuadro comparativo AltaVista / Alis

		ALTAVISTA		ALIS
		RECUENTO GLOBAL		RESULTADOS
ANY	107958869	% SIN	%CON(*)	SIN	CON
		CORRECCION		CORRECCION
INGLES	70065677	64.90%	76.35%	84.00	82.30
JAPONES	4369675	4.05%	4.76%	3.10	1.6
ALEMAN	4009554	3.71%	4.37%	4.50	4.00
FRANCES	1951446	1.81%	2.13%	1.8	1.5
ESPAÑOL	1495195	1.38%	1.63%	1.20	1.10
ITALIANO	1490109	1.38%	1.62%	1.00	0.80
PORTUGES	905676	0.84%	0.99%	0.70	0.70
HOLANDES	849045	0.79%	0.93%	0.6	0.4
SUECO	804266	0.74%	0.88%	1.10	0.60
CHINO	742741	0.69%	0.81%
RUSO	499447	0.46%	0.54%	0.30	0.10
CHECO	469659	0.44%	0.51%	0.30	0.30
FINLANDES	411951	0.38%	0.45%	0.40	0.30
NORUEGO	336751	0.31%	0.37%	0.60	0.30
DANES	300481	0.28%	0.33%	0.30	0.30
POLACO	280975	0.26%	0.31%
COREANO	215064	0.20%	0.23%
HONGARO	197043	0.18%	0.21%
GRIEGO	83780	0.08%	0.09%
ESTONIO	78955	0.07%	0.09%
HEBREO	48843	0.05%	0.05%
ISLANDES	34749	0.03%	0.04%
ROMANO	28052	0.03%	0.03%
LETON	22616	0.02%	0.02%
LITUANO	20539	0.02%	0.02%

RESTO DE LOS IDIOMAS	18246580	16.90%		Sitios multilenguas
RESTO CORREGIDO (*)	2052750	2.24%		15%

(*) Es necesario operar una corrección para tener en cuenta la diferencia entre el total y la suma de los idiomas medidos. ¿Qué representa este valor de cerca del 17%? Teóricamente, podría representar la suma de los valores de los idiomas no medidos. Pero es un porcentaje demasiado grande para esto. Quizás, además de los valores de los idiomas no medidos se incluyan los sitios web multilingües que el algoritmo no supo clasificar. Que la cifra sea tan grande nos hace pensar que no se contabilizan los sitios multilingües en varios idiomas (si así no fuera, el total podría ser inferior a la suma de los recuentos por idioma). Vamos luego a trabajar con la hipótesis de que "el resto" representa el recuento de los sitios multilingües y de los sitios en los idiomas que el algoritmo no reconoce... así como los sitios que el algoritmo no reconoce aunque estén redactados en uno de los idiomas "reconocidos" (errores del algoritmo), contando también las páginas que presentan símbolos no incluibles dentro de un idioma (imágenes, fórmulas...). Y seguiremos también la hipótesis (¡probablemente falsa!) de que existe la misma proporción de errores en todos los idiomas y por lo tanto los vamos a ignorar. Nos queda por fijar un parámetro para la distribución de los sitios multilingües y de los demás idiomas. Tras varios ensayos, elegimos la pareja 15% de sitios multilingües (o lingüísticamente neutros) y 2,24% de sitios en los demás idiomas (por ejemplo, 100 idiomas a 0,02%), porque nos parece el más plausible.

La comparación da así un valor más importante para el inglés con el método de Alis que con el método que llamamos "complemento del conjunto vacío" en AltaVista. Pero justamente, como veremos más adelante, nuestro método de recuento por palabras nos hace sospechar que el recuento de AltaVista también da ventajas al inglés. Lo que permite interrogarse respecto de los resultados de Alis Technologies y justifica un estudio con criterios lingüísticos más elaborados.

La comparación entre los tres métodos arroja los resultados siguientes:

	INGLES/FRANCES	FRANCES/ESPAÑOL
MÉTODO COMPLEMENTO DEL CONJUNTO VACIO	35.90	1.31
MÉTODO ALIS	46.67	1.36
MÉTODO FUNREDES	1115708	1.33

MEDICIONES DE FEBRERO DE 1998
[REGRESAR AL PRINCIPIO DE LA PÁGINA]

Las novedades de AltaVista y las anomalías constatadas nos llevaron a realizar recortes valiéndonos de otros buscadores. Hemos obtenido así un juego de cinco mediciones:

M1 : Con Hotbot (sumando con y sin diacríticos)

M2 : Con Excite (sumando con y sin diacríticos)

M3 : Con AltaVista todos los idiomas sin diacríticos

M4 : Con AltaVista por idioma sin diacríticos

M5 : La suma de los dos resultados anteriores

Habíamos pensado que, para comparar con nuestros resultados de las anteriores ediciones del estudio, el indicador M5 sería, pese a la reserva mencionada, el más adecuado. Pero los resultados de correlación nos hacen corregir esta previsión y considerar en cambio el indicador M3, independiente del algoritmo de idioma.

SÍNTESIS DE LOS RESULTADOS

	INGLES	FRANCES	ESPAÑOL	IN/FR	FR/ES	IN/ES
M1: HOTBOT FEBRERO 98	100221545	6090080	3230690	16.46	1.89	31.02
M2: EXCITE FEBRERO 98	23689345	1430583	910317	16.56	1.57	26.02
M3: ALTAVISTA TODOS LOS IDIOMAS 2/98	26017027	1478396	1115708	17.60	1.33	23.32
M4: ALTAVISTA POR IDIOMA	70718558	2946712	2058398	24.00	1.43	34.36
M5: M3+M4	96735585	4425108	3174106	21.86	1.39	30.48

COMENTARIOS
[REGRESAR AL PRINCIPIO DE LA PÁGINA]

Hay cierta coherencia entre los resultados de los tres buscadores, pero también diferencias importantes. Parecería que AltaVista favorece menos al inglés que los otros dos. ¿Puede explicarse esta diferencia por la introducción en AltaVista del reconocimiento de idiomas? Probablemente. ¿Qué valor otorgar ahora al estudio de tendencia? Nos quedamos con algunas dudas, al respecto, lo que justifica retomar el estudio valiéndonos de una metodología más sólida tanto desde el punto de vista lingüístico como desde el punto de vista técnico.

TENDENCIAS
[REGRESAR AL PRINCIPIO DE LA PÁGINA]

	IN/FR	FR/ES
PROMEDIO MARZO 1996	21.91	2.40
PROMEDIO MARZO 1997	19.99	1.92
PROMEDIO FEBRERO 1998	17.60	1.33

Las progresiones son casi lineales y la extrapolación muestra una relación inglés/francés igual a 1 en 2006 y una relación francés/español igual a 1 en 2000.

MEDICIÓN DE LOS DIACRÍTICOS

Un resultado interesante para quienes abogan por el uso correcto de los idiomas en la red es la medición de la escritura de las palabras con y sin diacríticos. Los resultados de esta relación son estables según todos los buscadores.

	Frances	Español
Porcentaje de sitios sin diacríticos (promedio)	20%	50%

CONCLUSIÓN

Ha llegado el momento de consolidar el método de trabajo con el concurso de lingüistas. En colaboración con la Unión Latina y su equipo de profesionales del idioma, Funredes va a extender el estudio a otros tres idiomas latinos, agregando a la vez un mayor rigor en la metodología lingüística. Estamos estableciendo una lista de palabras que respondan a los mejores criterios en este sentido (¡los obstáculos no faltan!), que nos servirá de base para medir la presencia de los seis idiomas siguientes: inglés, castellano, francés, italiano, portugués y rumano. Publicación de los resultados en unas semanas.