Listas de frecuencias de n-gramas de Google Libros
Este repositorio proporciona listas limpias de las palabras y n-gramas (secuencias de n palabras) más frecuentes, incluidas algunas traducciones al inglés, del Ngram Corpus de Google Books (v3/20200217, todos los idiomas), además de código Python personalizable que reproduce estas listas.
Listas con n-gramas
Las listas con los n-gramas más frecuentes se proporcionan por separado por idioma y n. Los idiomas disponibles son chino (simplificado), inglés, ficción inglesa, francés, alemán, hebreo, italiano, ruso y español. n varía de 1 a 5. En las listas proporcionadas, los subcorpus de lenguaje están restringidos a libros publicados en los años 2010-2019, pero en el código Python se pueden ajustar tanto esto como el número de n-gramas más frecuentes incluidos.
Las listas se encuentran en el directorio ngrams. Para todos los idiomas, excepto el hebreo, se proporcionan listas limpias para el
10.000 1 gramos más frecuentes,
5.000 2 gramos más frecuentes,
3.000 3 gramos más frecuentes,
1.000 4 gramos más frecuentes,
1.000 5 gramos más frecuentes.
Para el hebreo, debido al pequeño tamaño del corpus, solo se proporcionan los 200 4 gramos más frecuentes y los 80 5 gramos más frecuentes.
Todas las listas limpiadas también contienen el número de veces que aparece cada n-grama en el corpus (su frecuencia, freq de columna). Para 1 gramos (palabras) hay dos columnas adicionales:
cumshare que para cada palabra contiene la parte acumulada de todas las palabras del corpus formado por esa palabra y todas las palabras más frecuentes.
en que contiene la traducción al inglés de la palabra obtenida utilizando la API de Google Cloud Translate (solo para idiomas distintos del inglés).
Aquí están las primeras 10 filas de 1grams_french.csv:
ngrama
frecuencia
compartir cum
es
Delaware
1380202965
0,048
de
la
823756863
0,077
el
y
651571349
0.100
y
le
614855518
0,121
el
a
577644624
0,142
en
yo
527188618
0.160
el
les
503689143
0,178
a ellos
es
390657918
0,191
en
des
384774428
0.205
del
Las listas que se encuentran directamente en el directorio de ngrams se han limpiado y están diseñadas para usarse al desarrollar materiales de aprendizaje de idiomas. El subdirectorio ngrams/more contiene versiones sin limpiar y menos limpias que podrían ser útiles, por ejemplo, para lingüistas:
los n-gramas sin procesar más frecuentes tal como los almacena Google (con el sufijo 0_raw ),
manteniendo solo las entradas sin etiquetas de parte del discurso (POS) (con el sufijo 1a_no_pos ),
manteniendo solo las entradas con etiquetas POS (solo para 1 gramo, con el sufijo 1b_with_pos ),
entradas excluidas de las listas limpiadas finales (con el sufijo 2_removed ).
Aprender idiomas con esto
Para proporcionar alguna motivación sobre por qué aprender primero las palabras más frecuentes puede ser una buena idea al aprender un idioma, se proporciona el siguiente gráfico.