ASOCIACIÓN REDES Y DESARROLLO

FUNREDES

ESTUDIO

LENGUAS, CULTURAS

E INTERNET

TERCERA EDICIÓN- MARZO 1998

    Presentación a la conferencia Visionarios, Caracas, 22-24/4/98

    Autor: Daniel Pimienta

    Agradecimientos a Marcelo Sztrum, Catherine Dhaussy y Daniel Prado.

    Para conocer la primera y segunda edición del estudio

    En esta tercera actualización, nuestro estudio ha debido hacer frente a algunos nuevos parámetros relacionados con el instrumento de medición AltaVista, lo que nos lleva a anunciar, asimismo, la transición hacia un nuevo estudio, que será más sólido desde el punto de vista metodológico.

    Esta tercera actualización muestra esencialmente que el francés sigue progresando más rápido que el inglés, pero sigue manteniendo la tendencia relativamente lenta de 1997. En cuanto al castellano, continúa su progresión rápida y se acerca aun más al francés. La ventaja del francés con respecto al castellano había pasado de 140% en 1996 a 92% en 1997 y se reduce ahora a 39%. Las extrapolaciones muestran una relación de 1 a 9 entre francés e inglés para el año 2000 y la igualación del castellano y el francés para ese entonces.

    ¿Qué hay de nuevo en cuanto a las mediciones de la presencia de los idiomas en Internet?

    ALIS TECHNOLOGIES

    En primer lugar, un estudio de Alis Technologies con el apoyo de Internet Society: "Palmarès des langues de la toile". Autodenominado "primer estudio de envergadura", anuncia "un método riguroso de exploración del web". Se basa en una metodología muy distinta de la nuestra, en que el procesamiento informático tiene un papel preponderante, en particular un programa de reconocimiento automático de varios idiomas (17 en total) en el espacio web. El protocolo de medición consiste en elegir aleatoriamente 60 000 sitios Internet a partir de su número IP (ver nota ), determinar un subconjunto válido apto para la medición de 8 000 sitios web y aplicarles el programa de reconocimiento. Al resultado obtenido, se le aplican luego correcciones, pero no especifican de qué tipo. Es un procedimiento interesante ya que se puede automatizar y reproducir a voluntad y aplicarse simultáneamente a varios idiomas.

    Los resultados de Alis muestran, en relación con nuestro trabajo, una presencia mucho mayor del inglés (82% en vez de 70%). La relación francés/español , en cambio, es cercana a la nuestra.

    La diferencia más importante entre uno y otro trabajo estriba en las ambiciones respectivas: si para el estudio de Funredes sólo se trata de proporcionar una estimación muy aproximada, Alis muestra una ambición mayor en cuanto a la validez de sus cifras.

    Veamos más de cerca la metodología de Alis.

    1. En cuanto al programa de reconocimiento de idiomas, por ahora resulta imposible establecer un juicio de valor: sólo podríamos hacerlo comparando resultados obtenidos según distintos métodos.
    2. A nivel estadístico, en cambio, el método nos parece criticable. ¿Por qué una muestra de 8 000 páginas web elegidas al azar a partir de un universo de más de 100 millones de páginas podría constituir una base seria para proceder a la extrapolación? Por cierto, los especialistas en encuestas de opinión han demostrado su increíble capacidad para extrapolar intenciones de voto, con notable precisión, a partir de muestreos de 2 000 votantes respecto de un total de 50 millones. Pero justamente: el muestreo con que trabajan no fue establecido al azar, todo lo contrario: lo determinan a partir normas muy determinadas en que las proporciones de ciertos parámetros (sociales, económicos, geográficos, etc.) son calibradas con extrema precisión.
    3. El citado inconveniente hubiera podido, sin embargo, dejar de ser tal en caso de haberse repetido la operación varias decenas de veces y publicado un promedio de los resultados obtenidos, sobre todo si la variación era pequeña. Pero esto parece imposible, dada la necesidad de muchas verificaciones "a mano" dentro del procedimiento automático. E inclusive, de haberse medido al menos tres muestreos distintos, menor habría sido nuestra incertidumbre -y nuestra inquietud al respecto habría desaparecido, o bien...se habría justificado más plenamente.
    4. El criterio y la manera en que se realizan los ajustes correctivos de los resultados son inaccesibles, misteriosos -lo que parece ser casi una característica del estudio :-)...
    5. Por último, Alis no pretende, por el momento al menos, medir otra cosa que la presencia de los idiomas en el espacio web. No se ocupan de otros espacios ni tampoco abordan mediciones culturales - lo que constituye en realidad lo esencial de nuestro trabajo.

    Conclusión: los límites actuales del estudio de Alis nos alientan a proseguir con nuestro abordaje y a hacerlo inclusive más sistemático a nivel lingüístico, de modo de aumentar la fiabilidad en la medición de la presencia de los idiomas de que nos ocupamos en Internet.

    ALTAVISTA

    El potente buscador de Digital Corp. presenta novedades: integra los diacríticos (acentos y otros caracteres "especiales" en relación con el inglés) e introduce, como Alis, un factor de reconocimiento de idiomas (Alis reconoce 17 idiomas y AltaVista dice identificar páginas web de 25 idiomas diferentes). A primera vista, los respectivos algoritmos son distintos.

    En cambio, las dimensiones del universo considerado por AltaVista no han variado: siguen siendo de unos 100 millones de sitios web respecto de un universo de gran crecimiento exponencial. En proporción relativa, es probable que AltaVista haya debido pasar de una cobertura de un 70% a una cobertura mucho más reducida, quizás de alrededor de 20%. Este porcentaje sigue siendo suficiente para extrapolar nuestros resultados; pero, por el contrario, cabe preguntarse si este abordaje no favorece los sitios de mayor antigüedad y por lo tanto aquellos en inglés.

    El estudio de la evolución del buscador AltaVista nos reserva importantes sorpresas y, como veremos, nos va a hacer necesario considerar buscadores para avanzar en nuestro estudio.

    Lugar de los diacríticos

    A partir de determinados recortes en la selección, podemos comprobar que la búsqueda sin diacríticos incluye todas las combinaciones de la palabra indicada con diacríticos. Así por ejemplo, la búsqueda en francés de "peche" incluye "peche", "pêche", "pèche", "péché", y todos los errores de ortografía posibles tales como "péche" ou "pëche". Esto nos alienta a usar la búsqueda sin diacríticos para comparar con el inglés, pero nos exige a la vez un gran cuidado en la selección de las palabras a comparar.

    Búsqueda por idioma

    Tal como existe en este momento, AltaVista muestra un fenómeno incoherente que nos va a hacer dejarlo de lado para el recuento. Es probable que, por detrás esta incoherencia aparente, pueda hallarse una lógica, pero en todo caso esta lógica no es compatible con el objetivo del recuento. Se trata de lo siguiente.

    El resultado "todos los idiomas" (ANY) parece a veces corresponder a la suma de todos los resultados por idioma o bien es superior, lo que es normal ya que todos los idiomas no están contabilizados y también porque existe cierta cantidad de páginas multilingües. Pero en otros casos (la mayoría de las palabras de nuestro muestreo), el resultado es inferior al de la medición en inglés -y esto es difícil de interpretar...

    Veamos algunos ejemplos, a partir de las palabras o expresiones: FUNREDES, FUNDACION REDES Y DESARROLLO, IBERIAN, INTERNET, WEB (EN = inglés; FR = francés; ES = español; DE=alemán):

    FUNREDES        ANYENFRESDE
    # DOCUMENTOS 572  294  85  164  4 
    # OCURRENCIAS40434043404340434043
          
    "fundacion redes y desarrollo"     
    # DOCUMENTOS1562624910
    # OCURRENCIAS20031241000
          
    IBERIANANYENFRESDE
    # DOCUMENTOS11094102662521433
    # OCURRENCIAS1894618946189461894618946
          
    INTERNET     
    # DOCUMENTOS48463077794545314441264538 
    # OCURRENCIAS30098345300983453009834530098345 
          
    WEB     
    # DOCUMENTOS509301710397446244279191402 
    # OCURRENCIAS35497288354972883549728835497288 
          

    Parecería que, para las palabras corrientes en inglés (¿en el diccionario de AltaVista?) el resultado incluya sistemáticamente un valor "todos los idiomas" inferior al inglés (pero entonces, ¿qué significa este valor?) y que en el caso de las palabras, compuestas o no, inglesas el valor "todos los idiomas" sea cercano a la suma de valores idioma. Hemos pedido una aclaración al respecto a AltaVista y estamos esperando la respuesta.

    AltaVista da dos resultados de recuento. El primero, arriba de la página, es el número total de páginas de su selección que mencionan la palabra buscada ("documentos"). El segundo, abajo, indica la cantidad de veces que la palabra buscada aparece en las páginas de la selección ("ocurrencias"). También aquí aparece una incoherencia: a veces la segunda cantidad es idéntica en cada uno de los idiomas; a veces, el resultado es diferente según el idioma de que se trate (aparentemente en las expresiones compuestas por varias palabras como "fundacion redes y desarrollo").

    Pero aunque esta anomalía represente un obstáculo para la medición, puede establecerse con algo de astucia una comparación entre el algoritmo de Alis y el de AltaVista. En efecto, si buscamos con AltaVista el conjunto de los documentos que incluyan todas las palabras menos una probablemente inexistente (por ejemplo: " - qwxk49fnr8e4"), el resultado parece ser la cantidad total de páginas que el algoritmo de AltaVista considera que pertenecen a una lengua dada. Y, por supuesto , con la opción "todos los idiomas" tenemos la medida del universo total de las páginas de AltaVista: algo más de 100 millones en el momento de la medición. Recortes que incluyan palabras o combinaciones muy frecuentes (por ejemplo "de+il" en francés) confirman la validez del resultado. En este sentido, nuestras experiencias muestran que si la medición de palabras cortas muy frecuentes pudo dar aparentemente resultados convincentes en algún estudio, este método da hoy valores poco fiables.

    Cuadro comparativo AltaVista / Alis

       ALTAVISTA ALIS
       RECUENTO GLOBAL RESULTADOS
    ANY107958869 % SIN%CON(*) SINCON
       CORRECCION CORRECCION
    INGLES70065677 64.90%76.35% 84.0082.30
    JAPONES4369675 4.05%4.76% 3.101.6
    ALEMAN4009554 3.71%4.37% 4.504.00
    FRANCES1951446 1.81%2.13% 1.81.5
    ESPAÑOL1495195 1.38%1.63% 1.201.10
    ITALIANO1490109 1.38%1.62% 1.000.80
    PORTUGES905676 0.84%0.99% 0.700.70
    HOLANDES849045 0.79%0.93% 0.60.4
    SUECO804266 0.74%0.88% 1.100.60
    CHINO742741 0.69%0.81%   
    RUSO499447 0.46%0.54% 0.300.10
    CHECO469659 0.44%0.51% 0.300.30
    FINLANDES411951 0.38%0.45% 0.400.30
    NORUEGO336751 0.31%0.37% 0.600.30
    DANES300481 0.28%0.33% 0.300.30
    POLACO280975 0.26%0.31%   
    COREANO215064 0.20%0.23%   
    HONGARO197043 0.18%0.21%   
    GRIEGO83780 0.08%0.09%   
    ESTONIO78955 0.07%0.09%   
    HEBREO48843 0.05%0.05%   
    ISLANDES34749 0.03%0.04%   
    ROMANO28052 0.03%0.03%   
    LETON22616 0.02%0.02%   
    LITUANO20539 0.02%0.02%   
            
    RESTO DE LOS IDIOMAS18246580 16.90% Sitios multilenguas
    RESTO CORREGIDO (*)2052750 2.24% 15%  

    (*) Es necesario operar una corrección para tener en cuenta la diferencia entre el total y la suma de los idiomas medidos. ¿Qué representa este valor de cerca del 17%? Teóricamente, podría representar la suma de los valores de los idiomas no medidos. Pero es un porcentaje demasiado grande para esto. Quizás, además de los valores de los idiomas no medidos se incluyan los sitios web multilingües que el algoritmo no supo clasificar. Que la cifra sea tan grande nos hace pensar que no se contabilizan los sitios multilingües en varios idiomas (si así no fuera, el total podría ser inferior a la suma de los recuentos por idioma). Vamos luego a trabajar con la hipótesis de que "el resto" representa el recuento de los sitios multilingües y de los sitios en los idiomas que el algoritmo no reconoce... así como los sitios que el algoritmo no reconoce aunque estén redactados en uno de los idiomas "reconocidos" (errores del algoritmo), contando también las páginas que presentan símbolos no incluibles dentro de un idioma (imágenes, fórmulas...). Y seguiremos también la hipótesis (¡probablemente falsa!) de que existe la misma proporción de errores en todos los idiomas y por lo tanto los vamos a ignorar. Nos queda por fijar un parámetro para la distribución de los sitios multilingües y de los demás idiomas. Tras varios ensayos, elegimos la pareja 15% de sitios multilingües (o lingüísticamente neutros) y 2,24% de sitios en los demás idiomas (por ejemplo, 100 idiomas a 0,02%), porque nos parece el más plausible.

    La comparación da así un valor más importante para el inglés con el método de Alis que con el método que llamamos "complemento del conjunto vacío" en AltaVista. Pero justamente, como veremos más adelante, nuestro método de recuento por palabras nos hace sospechar que el recuento de AltaVista también da ventajas al inglés. Lo que permite interrogarse respecto de los resultados de Alis Technologies y justifica un estudio con criterios lingüísticos más elaborados.

    La comparación entre los tres métodos arroja los resultados siguientes:

        INGLES/FRANCES  FRANCES/ESPAÑOL
    MÉTODO COMPLEMENTO DEL CONJUNTO VACIO   35.90   1.31
    MÉTODO ALIS   46.67   1.36
    MÉTODO FUNREDES   1115708  1.33
            
    MEDICIONES DE FEBRERO DE 1998       

    Las novedades de AltaVista y las anomalías constatadas nos llevaron a realizar recortes valiéndonos de otros buscadores. Hemos obtenido así un juego de cinco mediciones:

    M1 : Con Hotbot (sumando con y sin diacríticos)
    M2 : Con Excite (sumando con y sin diacríticos)
    M3 : Con AltaVista todos los idiomas sin diacríticos
    M4 : Con AltaVista por idioma sin diacríticos
    M5 : La suma de los dos resultados anteriores

    Habíamos pensado que, para comparar con nuestros resultados de las anteriores ediciones del estudio, el indicador M5 sería, pese a la reserva mencionada, el más adecuado. Pero los resultados de correlación nos hacen corregir esta previsión y considerar en cambio el indicador M3, independiente del algoritmo de idioma.

    SÍNTESIS DE LOS RESULTADOS

     INGLESFRANCESESPAÑOLIN/FRFR/ESIN/ES
    M1: HOTBOT FEBRERO 981002215456090080323069016.461.8931.02
    M2: EXCITE FEBRERO 9823689345143058391031716.561.5726.02
    M3: ALTAVISTA TODOS LOS IDIOMAS 2/98 260170271478396111570817.601.3323.32
    M4: ALTAVISTA POR IDIOMA707185582946712205839824.001.4334.36
    M5: M3+M4967355854425108317410621.861.3930.48

    COMENTARIOS

    Hay cierta coherencia entre los resultados de los tres buscadores, pero también diferencias importantes. Parecería que AltaVista favorece menos al inglés que los otros dos. ¿Puede explicarse esta diferencia por la introducción en AltaVista del reconocimiento de idiomas? Probablemente. ¿Qué valor otorgar ahora al estudio de tendencia? Nos quedamos con algunas dudas, al respecto, lo que justifica retomar el estudio valiéndonos de una metodología más sólida tanto desde el punto de vista lingüístico como desde el punto de vista técnico.

    TENDENCIAS

     IN/FRFR/ES
    PROMEDIO MARZO 199621.912.40
    PROMEDIO MARZO 199719.991.92
    PROMEDIO FEBRERO 199817.601.33

    Las progresiones son casi lineales y la extrapolación muestra una relación inglés/francés igual a 1 en 2006 y una relación francés/español igual a 1 en 2000.

    MEDICIÓN DE LOS DIACRÍTICOS

    Un resultado interesante para quienes abogan por el uso correcto de los idiomas en la red es la medición de la escritura de las palabras con y sin diacríticos. Los resultados de esta relación son estables según todos los buscadores.

           Frances Español
          Porcentaje de sitios sin diacríticos (promedio)   20%   50%

    CONCLUSIÓN

    Ha llegado el momento de consolidar el método de trabajo con el concurso de lingüistas. En colaboración con la Unión Latina y su equipo de profesionales del idioma, Funredes va a extender el estudio a otros tres idiomas latinos, agregando a la vez un mayor rigor en la metodología lingüística. Estamos estableciendo una lista de palabras que respondan a los mejores criterios en este sentido (¡los obstáculos no faltan!), que nos servirá de base para medir la presencia de los seis idiomas siguientes: inglés, castellano, francés, italiano, portugués y rumano. Publicación de los resultados en unas semanas.

     

    | Página Principal / Búsqueda por palabras clave | Nuestro Gopher | Contacto |

    Copyright © 1995-98 FUNREDES, Fundación Redes y Desarrollo