Repositori ini menyediakan daftar kata dan n-gram yang paling sering dibersihkan (urutan dari n kata), termasuk beberapa terjemahan bahasa Inggris, dari Google Buku Ngram Corpus (v3/20200217, semua bahasa), ditambah kode Python yang dapat disesuaikan yang mereproduksi daftar ini.
Daftar dengan n-gram
Daftar dengan n-gram paling sering disediakan secara terpisah berdasarkan bahasa dan n. Bahasa yang tersedia adalah Cina (sederhana), Inggris, Fiksi Inggris, Prancis, Jerman, Ibrani, Italia, Rusia, dan Spanyol. n berkisar dari 1 hingga 5. Dalam daftar yang disediakan, subkorpora bahasa dibatasi pada buku yang diterbitkan pada tahun 2010-2019, namun dalam kode Python baik ini maupun jumlah n-gram yang paling sering disertakan dapat disesuaikan.
Daftarnya ditemukan di direktori ngrams. Untuk semua bahasa kecuali bahasa Ibrani, daftar yang dibersihkan disediakan untuk
10.000 paling sering 1 gram,
5.000 paling sering 2 gram,
3.000 paling sering 3 gram,
1.000 paling sering 4 gram,
1.000 paling sering 5 gram.
Untuk bahasa Ibrani, karena ukuran korpus yang kecil, hanya disediakan 200 4 gram paling sering dan 80 5 gram paling sering.
Semua daftar yang dibersihkan juga berisi berapa kali setiap n-gram muncul di korpus (frekuensinya, kolom freq ). Untuk 1 gram (kata) ada dua kolom tambahan:
cumshare yang untuk setiap kata berisi bagian kumulatif dari semua kata dalam korpus yang terdiri dari kata itu dan semua kata yang lebih sering.
en yang berisi terjemahan bahasa Inggris dari kata yang diperoleh menggunakan Google Cloud Translate API (hanya untuk bahasa non-Inggris).
Berikut adalah 10 baris pertama 1grams_french.csv:
ngram
frekuensi
berbagi cum
en
de
1380202965
0,048
dari
la
823756863
0,077
itu
et
651571349
0,100
Dan
le
614855518
0,121
itu
A
577644624
0,142
pada
aku
527188618
0,160
itu
les
503689143
0,178
mereka
en
390657918
0,191
di dalam
des
384774428
0,205
dari
Daftar yang ditemukan langsung di direktori ngrams telah dibersihkan dan dimaksudkan untuk digunakan saat mengembangkan materi pembelajaran bahasa. Sub-direktori ngrams/more berisi versi yang tidak bersih dan kurang dibersihkan yang mungkin berguna misalnya untuk ahli bahasa:
n-gram mentah yang paling sering disimpan Google (berakhiran 0_raw ),
hanya menyimpan entri tanpa tag part-of-speech (POS) (berakhiran 1a_no_pos ),
hanya menyimpan entri dengan tag POS (hanya untuk 1 gram, bersufiks 1b_with_pos ),
entri dikecualikan dari daftar akhir yang dibersihkan (berakhiran 2_removed ).
Belajar bahasa dengan ini
Untuk memberikan motivasi mengapa mempelajari kata-kata yang paling sering digunakan terlebih dahulu mungkin merupakan ide bagus saat mempelajari suatu bahasa, grafik berikut disediakan.