이 저장소는 Google Books Ngram Corpus(v3/20200217, 모든 언어)의 일부 영어 번역을 포함하여 가장 자주 사용되는 단어 및 n-gram(n 단어 시퀀스)의 정리된 목록과 이러한 목록을 재현하는 사용자 정의 가능한 Python 코드를 제공합니다.
N-그램이 포함된 목록
가장 빈번한 n-gram이 포함된 목록은 언어 및 n별로 별도로 제공됩니다. 사용 가능한 언어는 중국어(간체), 영어, 영어 소설, 프랑스어, 독일어, 히브리어, 이탈리아어, 러시아어 및 스페인어입니다. n 범위는 1에서 5까지입니다. 제공된 목록에서 언어 하위 말뭉치는 2010-2019년에 출판된 책으로 제한되지만 Python 코드에서는 이 내용과 포함된 가장 자주 사용되는 n-그램 수를 모두 조정할 수 있습니다.
목록은 ngrams 디렉터리에 있습니다. 히브리어를 제외한 모든 언어에 대해 정리된 목록이 제공됩니다.
10,000개의 가장 빈번한 1-그램,
5,000개의 가장 빈번한 2그램,
3.000개의 가장 빈번한 3그램,
1,000개의 가장 빈번한 4그램,
1,000개의 가장 빈번한 5그램.
히브리어의 경우 코퍼스 크기가 작기 때문에 가장 자주 사용되는 4그램 200개와 가장 자주 사용되는 5그램 80개만 제공됩니다.
정리된 모든 목록에는 코퍼스에서 각 n-그램이 나타나는 횟수(해당 빈도, 열 freq )도 포함됩니다. 1그램(단어)에는 두 개의 추가 열이 있습니다.
cumshare 는 각 단어에 대해 해당 단어와 더 자주 사용되는 모든 단어로 구성된 코퍼스의 모든 단어의 누적 점유율을 포함합니다.
en 에는 Google Cloud Translate API를 사용하여 얻은 단어의 영어 번역이 포함되어 있습니다(영어가 아닌 언어에만 해당).
1grams_french.csv의 처음 10개 행은 다음과 같습니다.
엔그램
주파수
정액 공유
ko
드
1380202965
0.048
~의
라
823756863
0.077
그만큼
등
651571349
0.100
그리고
르
614855518
0.121
그만큼
에이
577644624
0.142
~에
엘'
527188618
0.160
그만큼
레
503689143
0.178
그들을
ko
390657918
0.191
~에
데스
384774428
0.205
~의
ngrams 디렉토리에 직접 있는 목록은 정리되었으며 언어 학습 자료를 개발할 때 사용하기 위한 것입니다. 하위 디렉토리 ngrams/more에는 언어학자에게 유용할 수 있는 정리되지 않은 버전과 덜 정리된 버전이 포함되어 있습니다.
Google이 저장할 때 가장 자주 사용되는 원시 n-그램( 접미사 0_raw )
품사(POS) 태그(접미사 1a_no_pos ) 없이 항목만 유지합니다.
POS 태그가 있는 항목만 유지합니다(1-gram에만 해당, 접미사 1b_with_pos ).
최종 정리된 목록에서 제외된 항목(접미어 2_removed )
이걸로 언어를 배우다
언어를 배울 때 가장 자주 사용되는 단어를 먼저 배우는 것이 왜 좋은 생각인지에 대한 동기를 제공하기 위해 다음 그래프가 제공됩니다.