Este repositório fornece listas limpas das palavras e n-gramas (sequências de n palavras) mais frequentes, incluindo algumas traduções para o inglês, do Google Books Ngram Corpus (v3/20200217, todos os idiomas), além de código Python personalizável que reproduz essas listas.
Listas com n-gramas
Listas com os n-gramas mais frequentes são fornecidas separadamente por idioma e n. Os idiomas disponíveis são chinês (simplificado), inglês, ficção em inglês, francês, alemão, hebraico, italiano, russo e espanhol. n varia de 1 a 5. Nas listas fornecidas, os subcorpora da linguagem estão restritos a livros publicados nos anos 2010-2019, mas no código Python tanto isso quanto o número de n-gramas mais frequentes incluídos podem ser ajustados.
As listas são encontradas no diretório ngrams. Para todos os idiomas, exceto hebraico, listas limpas são fornecidas para o
10.000 gramas de 1 grama mais frequentes,
5.000 2 gramas mais frequentes,
3.000 3 gramas mais frequentes,
1.000 4 gramas mais frequentes,
1.000 5 gramas mais frequentes.
Para o hebraico, devido ao pequeno tamanho do corpus, apenas os 200 4 gramas mais frequentes e os 80 5 gramas mais frequentes são fornecidos.
Todas as listas limpas também contêm o número de vezes que cada n-grama ocorre no corpus (sua frequência, coluna freq ). Para 1 grama (palavras), existem duas colunas adicionais:
cumshare que para cada palavra contém a participação cumulativa de todas as palavras do corpus formado por aquela palavra e todas as palavras mais frequentes.
en que contém a tradução em inglês da palavra obtida usando a API Google Cloud Translate (somente para idiomas diferentes do inglês).
Aqui estão as primeiras 10 linhas de 1grams_french.csv:
ngrama
frequência
cumshare
pt
de
1380202965
0,048
de
la
823756863
0,077
o
et
651571349
0,100
e
ele
614855518
0,121
o
um
577644624
0,142
no
eu
527188618
0,160
o
os
503689143
0,178
eles
pt
390657918
0,191
em
des
384774428
0,205
do
As listas encontradas diretamente no diretório ngrams foram limpas e devem ser usadas no desenvolvimento de materiais de aprendizagem de idiomas. O subdiretório ngrams/more contém versões não limpas e menos limpas que podem ser úteis, por exemplo, para linguistas:
os n-gramas brutos mais frequentes conforme o Google os armazena (sufixo 0_raw ),
mantendo apenas entradas sem tags de classe gramatical (POS) (sufixo 1a_no_pos ),
mantendo apenas entradas com tags POS (apenas para 1 grama, com sufixo 1b_with_pos ),
entradas excluídas das listas limpas finais (sufixo 2_removed ).
Aprendendo idiomas com isso
Para fornecer alguma motivação sobre por que aprender primeiro as palavras mais frequentes pode ser uma boa ideia ao aprender um idioma, o gráfico a seguir é fornecido.