يوفر هذا المستودع قوائم نظيفة بالكلمات الأكثر شيوعًا وn-grams (تسلسلات n من الكلمات)، بما في ذلك بعض الترجمات الإنجليزية من Google Books Ngram Corpus (الإصدار 3/20200217، جميع اللغات)، بالإضافة إلى كود Python القابل للتخصيص الذي يعيد إنتاج هذه القوائم.
قوائم مع ن غرام
يتم توفير القوائم التي تحتوي على n-grams الأكثر شيوعًا بشكل منفصل حسب اللغة وn. اللغات المتاحة هي الصينية (المبسطة)، والإنجليزية، والرواية الإنجليزية، والفرنسية، والألمانية، والعبرية، والإيطالية، والروسية، والإسبانية. يتراوح n من 1 إلى 5. في القوائم المتوفرة، تقتصر المجموعات الفرعية للغة على الكتب المنشورة في الأعوام 2010-2019، ولكن في كود Python يمكن تعديل كل من هذا وعدد N-grams المضمنة الأكثر شيوعًا.
تم العثور على القوائم في دليل ngrams. بالنسبة لجميع اللغات باستثناء العبرية، يتم توفير قوائم نظيفة لـ
10.000 الأكثر تكرارًا 1 جرام،
5.000 الأكثر تكرارًا 2 جرام،
3.000 الأكثر تكرارا 3 جرام،
1.000 الأكثر تكرارًا 4 جرام،
1.000 الأكثر تكرارًا 5 جرام.
بالنسبة للغة العبرية، نظرًا لصغر حجم المجموعة، يتم توفير 200 جرامًا من الـ 4 جرامات الأكثر شيوعًا و80 جرامًا من الـ 5 جرامات الأكثر شيوعًا.
تحتوي جميع القوائم المنظفة أيضًا على عدد المرات التي يحدث فيها كل n-gram في المجموعة (تكرارها، freq العمود ). بالنسبة لـ 1 جرام (كلمات) هناك عمودان إضافيان:
cumshare الذي يحتوي لكل كلمة على الحصة التراكمية لجميع الكلمات في المجموعة المكونة من تلك الكلمة وجميع الكلمات الأكثر تكرارًا.
en الذي يحتوي على الترجمة الإنجليزية للكلمة التي تم الحصول عليها باستخدام Google Cloud Translate API (فقط للغات غير الإنجليزية).
فيما يلي الصفوف العشرة الأولى من 1grams_french.csv:
ngram
التكرار
شاعر المليون
أون
دي
1380202965
0.048
ل
لا
823756863
0.077
ال
وآخرون
651571349
0.100
و
لو
614855518
0.121
ال
أ
577644624
0.142
في
ل'
527188618
0.160
ال
ليه
503689143
0.178
هم
أون
390657918
0.191
في
قصر
384774428
0.205
التابع
تم تنظيف القوائم الموجودة مباشرة في دليل ngrams وهي مخصصة للاستخدام عند تطوير مواد تعلم اللغة. يحتوي الدليل الفرعي ngrams/more على إصدارات غير نظيفة وأقل تنظيفًا والتي قد تكون مفيدة للغويين على سبيل المثال:
جرامات n الخام الأكثر شيوعًا حيث يقوم Google بتخزينها (ملحقة بـ 0_raw )،
الاحتفاظ فقط بالإدخالات التي لا تحتوي على علامات جزء من الكلام (POS) (الملحقة 1a_no_pos )،
الاحتفاظ فقط بالإدخالات التي تحتوي على علامات POS (فقط لـ 1 جرام، المُلحقة 1b_with_pos )،
الإدخالات المستبعدة من القوائم المنظفة النهائية (الملحقة 2_removed ).
تعلم اللغات مع هذا
لتوفير بعض الدوافع لماذا قد يكون الاعتماد على الكلمات الأكثر شيوعًا أولاً فكرة جيدة عند تعلم لغة ما، يتم توفير الرسم البياني التالي.