Этот репозиторий предоставляет очищенные списки наиболее часто встречающихся слов и n-грамм (последовательностей из n слов), включая некоторые английские переводы, из корпуса Ngram Google Книги (v3/20200217, все языки), а также настраиваемый код Python, который воспроизводит эти списки.
Списки с n-граммами
Списки с наиболее часто встречающимися n-граммами предоставляются отдельно по языку и n. Доступные языки: китайский (упрощенный), английский, английская художественная литература, французский, немецкий, иврит, итальянский, русский и испанский. n варьируется от 1 до 5. В предоставленных списках языковые субкорпуса ограничены книгами, опубликованными в 2010-2019 годах, но в коде Python и это, и количество наиболее часто встречающихся включенных n-грамм можно регулировать.
Списки находятся в каталоге ngrams. Для всех языков, кроме иврита, предоставляются очищенные списки.
10.000 наиболее частых 1-граммов,
5.000 наиболее частых 2-граммовых,
3.000 наиболее частых 3-граммов,
1000 наиболее частых 4-граммов,
1.000 наиболее частых 5-грамм.
Для иврита из-за небольшого размера корпуса предоставлены только 200 наиболее частых 4-грамм и 80 наиболее часто встречающихся 5-грамм.
Все очищенные списки также содержат количество раз, когда каждая n-грамма встречается в корпусе (ее частота, freq столбца). Для 1-грамм (слов) есть два дополнительных столбца:
cumshare , который для каждого слова содержит совокупную долю всех слов в корпусе, составленном из этого слова и всех более частых слов.
en , который содержит английский перевод слова, полученный с помощью API Google Cloud Translate (только для языков, отличных от английского).
Вот первые 10 строк 1grams_french.csv:
нграмм
частота
поделиться спермой
ru
де
1380202965
0,048
из
ла
823756863
0,077
тот
и др.
651571349
0,100
и
ле
614855518
0,121
тот
à
577644624
0,142
в
я'
527188618
0,160
тот
лес
503689143
0,178
их
ru
390657918
0,191
в
де
384774428
0,205
принадлежащий
Списки, находящиеся непосредственно в каталоге ngrams, были очищены и предназначены для использования при разработке материалов для изучения языков. Подкаталог ngrams/more содержит неочищенные и менее очищенные версии, которые могут быть полезны, например, лингвистам:
наиболее частые необработанные n-граммы в том виде, в котором их хранит Google (с суффиксом 0_raw ),
сохранять только записи без тегов части речи (POS) (с суффиксом 1a_no_pos ),
хранить только записи с тегами POS (только для 1 грамма, с суффиксом 1b_with_pos ),
записи, исключенные из окончательных очищенных списков (с суффиксом 2_removed ).
Изучаем языки с этим
Чтобы проиллюстрировать, почему при изучении языка может быть хорошей идеей сначала изучать наиболее часто встречающиеся слова, представлен следующий график.