Dieses Repository bietet bereinigte Listen der häufigsten Wörter und N-Gramme (Folgen von n Wörtern), einschließlich einiger englischer Übersetzungen, des Google Books Ngram Corpus (v3/20200217, alle Sprachen) sowie anpassbaren Python-Code, der diese Listen reproduziert.
Listen mit n-Gramm
Listen mit den häufigsten N-Grammen werden getrennt nach Sprache und N bereitgestellt. Verfügbare Sprachen sind Chinesisch (vereinfacht), Englisch, englische Belletristik, Französisch, Deutsch, Hebräisch, Italienisch, Russisch und Spanisch. n reicht von 1 bis 5. In den bereitgestellten Listen sind die Sprachunterkorpora auf Bücher beschränkt, die in den Jahren 2010–2019 veröffentlicht wurden, aber im Python-Code können sowohl dies als auch die Anzahl der am häufigsten enthaltenen n-Gramme angepasst werden.
Die Listen befinden sich im Verzeichnis ngrams. Für alle Sprachen außer Hebräisch werden bereinigte Listen bereitgestellt
10.000 am häufigsten 1-Gramm,
5.000 am häufigsten 2-Gramm,
3.000 am häufigsten 3-Gramm,
1.000 am häufigsten 4-Gramm,
1.000 am häufigsten 5-Gramm.
Für Hebräisch werden aufgrund der geringen Korpusgröße nur die 200 häufigsten 4-Gramm-Sprachen und die 80 häufigsten 5-Gramm-Sprachen bereitgestellt.
Alle bereinigten Listen enthalten auch die Häufigkeit, mit der jedes N-Gramm im Korpus vorkommt (seine Häufigkeit, Spalte freq ). Für 1-Gramm (Wörter) gibt es zwei zusätzliche Spalten:
cumshare , das für jedes Wort den kumulierten Anteil aller Wörter im Korpus enthält, der aus diesem Wort und allen häufigeren Wörtern besteht.
en , das die englische Übersetzung des Wortes enthält, die mit der Google Cloud Translate API erhalten wurde (nur für nicht-englische Sprachen).
Hier sind die ersten 10 Zeilen von 1grams_french.csv:
ngram
Frequenz
cumshare
de
de
1380202965
0,048
von
la
823756863
0,077
Die
et
651571349
0,100
Und
le
614855518
0,121
Die
A
577644624
0,142
bei
l'
527188618
0,160
Die
les
503689143
0,178
ihnen
de
390657918
0,191
In
des
384774428
0,205
des
Die direkt im Ngrams-Verzeichnis gefundenen Listen wurden bereinigt und sind für die Entwicklung von Sprachlernmaterialien vorgesehen. Das Unterverzeichnis ngrams/more enthält ungereinigte und weniger bereinigte Versionen, die beispielsweise für Linguisten von Nutzen sein könnten:
die häufigsten rohen N-Gramme, wie Google sie speichert (mit dem Suffix 0_raw ),
Es werden nur Einträge ohne Wortart-Tags (POS) (mit dem Suffix 1a_no_pos ) beibehalten.
nur Einträge mit POS-Tags behalten (nur für 1-Gramm, mit dem Suffix 1b_with_pos ),
Einträge, die von den endgültig bereinigten Listen ausgeschlossen sind (mit dem Suffix 2_removed ).
Damit Sprachen lernen
Um eine Motivation dafür zu liefern, warum es beim Erlernen einer Sprache eine gute Idee sein kann, zuerst die häufigsten Wörter zu erlernen, wird die folgende Grafik bereitgestellt.