Ce référentiel fournit des listes nettoyées des mots et n-grammes (séquences de n mots) les plus fréquents, y compris certaines traductions anglaises, du Google Books Ngram Corpus (v3/20200217, toutes langues), ainsi que du code Python personnalisable qui reproduit ces listes.
Listes avec n-grammes
Les listes des n-grammes les plus fréquents sont fournies séparément par langue et par n. Les langues disponibles sont le chinois (simplifié), l'anglais, l'anglais de fiction, le français, l'allemand, l'hébreu, l'italien, le russe et l'espagnol. n va de 1 à 5. Dans les listes fournies, les sous-corpus de langage sont limités aux livres publiés dans les années 2010-2019, mais dans le code Python, cela ainsi que le nombre de n-grammes les plus fréquents inclus peuvent être ajustés.
Les listes se trouvent dans le répertoire ngrams. Pour toutes les langues, à l'exception de l'hébreu, des listes nettoyées sont fournies pour le
10 000 1 grammes les plus fréquents,
5.000 2 grammes les plus fréquents,
3.000 3 grammes les plus fréquents,
1.000 4 grammes les plus fréquents,
1.000 5 grammes les plus fréquents.
Pour l’hébreu, en raison de la petite taille du corpus, seuls les 200 4 grammes les plus fréquents et les 80 5 grammes les plus fréquents sont fournis.
Toutes les listes nettoyées contiennent également le nombre de fois où chaque n-gramme apparaît dans le corpus (sa fréquence, colonne freq ). Pour 1 gramme (mots), il y a deux colonnes supplémentaires :
cumshare qui pour chaque mot contient la part cumulée de tous les mots du corpus constitué par ce mot et de tous les mots plus fréquents.
en qui contient la traduction anglaise du mot obtenu à l'aide de l'API Google Cloud Translate (uniquement pour les langues non anglaises).
Voici les 10 premières lignes de 1grams_french.csv :
ngramme
fréquence
partage de sperme
fr
de
1380202965
0,048
de
la
823756863
0,077
le
et
651571349
0,100
et
le
614855518
0,121
le
un
577644624
0,142
à
je
527188618
0,160
le
les
503689143
0,178
eux
fr
390657918
0,191
dans
des
384774428
0,205
de la
Les listes trouvées directement dans le répertoire ngrams ont été nettoyées et sont destinées à être utilisées lors du développement de matériel d'apprentissage des langues. Le sous-répertoire ngrams/more contient des versions non nettoyées et moins nettoyées qui pourraient être utiles par exemple aux linguistes :
les n-grammes bruts les plus fréquents tels que Google les stocke (suffixés 0_raw ),
ne conserver que les entrées sans balises de partie de discours (POS) (suffixées 1a_no_pos ),
ne conserver que les entrées avec des balises POS (uniquement pour 1 gramme, suffixé 1b_with_pos ),
entrées exclues des listes nettoyées finales (suffixées 2_removed ).
Apprendre des langues avec ça
Pour expliquer pourquoi apprendre d'abord les mots les plus fréquents peut être une bonne idée lors de l'apprentissage d'une langue, le graphique suivant est fourni.