sábado, 12 de octubre de 2013

La ley de Zipf y las 1000 palabras más usadas



Hoy quiero relacionar dos conceptos curiosos: la frecuencia de uso de las palabras de un idioma y la llamada ley de Zipf, que definiré más tarde.

Esto viene a cuento porque se ha puesto de moda al aprender un idioma por Internet, empezar a hacerlo aprendiendo las 1000 palabras más comunes del mismo.
Uno puede encontrar en Wikipedia un compendio de listas hechas por otra gente:

http://en.wiktionary.org/wiki/Wiktionary:Frequency_lists

Mi favorita, basada en textos de Opensubtiles, ha sido la creada por este bloguero:

http://invokeit.wordpress.com/frequency-word-lists/

El método tiene sentido. A menudo en los libros de texto de idiomas aparecen vocabulario y expresiones que nadie usaría en la vida. Mejor empezar con lo más frecuente.


Además se basa en un principio, que se define habitualmente como la ley de Zipf. Según el cual, la palabra más usada de un idioma se usa el doble que la segunda más usada, y el triple que la tercera, y cuatro veces más que la cuarta etc.
Es decir, la frecuencia de aparición de una palabra tiene una proporción inversa al orden de la misma.

Usando una fórmula:
[Frecuencia de la palabra N = Frecuencia de la palabra más común / Orden de palabra N]




Ahora bien, ¿se cumple realmente esta ley?
Hoy en día, se puede experimentar fácilmente con las listas que he enlazado arriba. Por ejemplo con las palabras más usadas del idioma ruso.







Palabra       Frecuencia   Resta entre una palabra y la anterior

я  589078
не  515140 73938
что  391122 124018
в  352391 38731
и  347034 5357
ты  326376 20658
это  301119 25257
на  195048 106071
с  169191 25857
он  153142 16049

La ley no se muestra con total exactitud. De hecho la segunda mayor diferencia se da entre el séptimo y el octavo. Pero sí a rasgos generales. La primera palabra я ("yo") se usa 4 veces más que la décima он (él). Tal proporción no se mantiene a partir de ahí. Sería matemáticamente imposible. Las diferencias son cada vez más pequeñas a medida que nos alejamos de los primeros términos. De hecho la undécima palabra (fuera de mi gráfico) aparece sólo 1,2 veces más que la veinteaba.

En conclusión, el aprendizaje de las palabras más comunes de un idioma es un método efectivo de aprendizaje.

Otra conclusión aparente tras ver la lista rusa (o cualquier otra): los humanos somos perezosos. Las palabras más frecuentes son las más cortas.



2 comentarios:

  1. La primera vez que leí citar la ley de Zipf fue a propósito de los hasta hoy infructuosos intentos de descifrar el Manuscrito Voynich. Como buen friki, yo también me apasioné por aquella rareza.

    Es interesante el análisis, aunque está claro que esa ley es sociológica, no exacta.

    Pienso que a la hora de aprender un idioma siempre hay que ir a lo sencillo, a lo sobado incluso, y que es mejor aprender expresiones enteras y no palabras sueltas. Creo que se avanza más, porque integras significado con gramática y sintaxis de modo limpio, y generas imágenes mentales más nítidas.

    ResponderEliminar
  2. De acuerdo. Otra ventaja de aprender expresiones enteras es que muchos verbos están asociados a preposiciones concretas.

    También conviene adaptar el estudio al lenguaje concreto. En las lenguas románicas será importante evitar los "falsos amigos", en lenguas como el chino encontrar una forma de memorizar sus carácteres.

    Mi método es aprender solo el 90 por ciento, y luego el 10 restante en conversaciones con nativos.

    Las academias son una pérdida de tiempo y dinero.

    ResponderEliminar