الشكل 1: رسم توضيحي لقص المفردات إلى الكورية والفرنسية.
تشذيب المفردات (VT) عبارة عن تقنية ضغط نموذجية، تعمل على تقليل مفردات LM متعددة اللغات إلى لغة مستهدفة عن طريق حذف الرموز المميزة غير ذات الصلة من مفرداتها (انظر الشكل 1). يحتوي هذا المستودع على أداة vocabtrimmer
لمكتبة بايثون، والتي تزيل الرموز المميزة غير ذات الصلة من مفردات LM متعددة اللغات للغة الهدف.
الشكل 2: نسبة مصفوفة التضمين إلى عدد معلمات النموذج بأكملها لكل من LMs متعددة اللغات ومصفوفة التضمين بعد VT مع أفضل 60 مفردة.
الدافع وراء VT هو أن LM متعدد اللغات لديه مفردات ضخمة لتغطية جميع اللغات، مما يؤدي إلى حجم نموذج كبير (انظر الشكل 2). ومع ذلك، فإننا لا نحتاج إلى الجزء الأكبر من هذه المفردات، عندما نقوم بضبط اللغة متعددة اللغات في مهمة أحادية اللغة في الممارسة العملية. وبالتالي، يمكننا حذف هذه المفردات غير المستخدمة لتقليل حجم النموذج.
من الناحية النظرية، يمكن لـ VT ضغط أي LM موجودة متعددة اللغات لإنشاء LM أحادية اللغة في أي لغة تغطيها LM متعددة اللغات. في تجاربنا، أظهرنا أن VT يمكن أن يحتفظ بالأداء الأصلي لـ LM متعدد اللغات، في حين أنه أصغر حجمًا (بشكل عام حوالي 50% من حجم المفردات الأصلية يكفي) من LM الأصلي متعدد اللغات. يتم إجراء التقييم على أربع مهام البرمجة اللغوية العصبية (مهمتان توليديتان ومهمتان تصنيفيتان) من بين أربع أدوات تعلم متعددة اللغات مستخدمة على نطاق واسع في سبع لغات. أخيرًا، نبين أن هذه المنهجية يمكن أن تحافظ على أفضل ما في العالمين أحادي اللغة ومتعدد اللغات من خلال الحفاظ على حجم صغير كنماذج أحادية اللغة دون الحاجة إلى إعادة تدريبها على وجه التحديد، وحتى الحد من التحيزات الاجتماعية التي قد تكون ضارة. يرجى التحقق من هذه النتائج التجريبية بالإضافة إلى التفاصيل الفنية في ورقتنا، "ضغط نموذجي متعدد اللغات فعال من خلال تشذيب المفردات، 2023،". لإعادة إنتاج النتائج في ورقتنا، يرجى التحقق هنا.
الأخبار: تم قبول ورقتنا البحثية "ضغط نموذجي متعدد اللغات فعال من خلال تشذيب المفردات، 2023" من خلال نتائج EMNLP 2023.
لنقم بتثبيت lmqg
عبر النقطة أولاً.
pip install vocabtrimmer
vocabtrimmer
الشكل 3: مقارنات بين ما قبل FT مقابل ما بعد FT في مثال للضبط الدقيق لمهمة باللغة الفرنسية.
افتراضيًا، يعتمد VT على mC4 للعثور على مجموعة من الرموز المميزة الخاصة باللغة وتكرار كل رمز مميز. الاستخدام العملي لـ VT هو تطبيقه على LM متعدد اللغات قبل الضبط الدقيق (ما قبل FT VT) أو بعد الضبط الدقيق (ما بعد FT VT). يجب أن يعمل كلاهما بشكل جيد بشكل عام، ولكن ما بعد VT أكثر قوة ومناسبًا، إذا كان لديك نموذج بالفعل حيث لا يلزم أي تدريب إضافي. بخلاف ذلك، سيكون ما قبل FT VT خيارًا لأنه قد يقلل الوقت اللازم لضبط النموذج. انظر المقارنة بين ما قبل / ما بعد FT VT في ورقتنا.
يوفر vocabtrimmer
واجهة سطر الأوامر التالية لقص مفردات LM متعددة اللغات.
vocabtrimmer-trimming -m MODEL -l LANGUAGE -p PATH_TO_SAVE [-v TARGET_VOCAB_SIZE] [--repo-id REPO_ID]
arguments:
-m, --model, model name on huggingface or path to local model
-l, --language, language code of tokens to keep
-p, --path-to-save, directly to save model
-v, --target-vocab-size, [optinoal] vocab size after mining
--repo-id, [optinoal] huggingface repo id to push after trimming
يؤدي اتباع الأمر إلى تقليم مفردات google/mt5-small
إلى الفرنسية باستخدام أفضل 60 ألف مفردة.
vocabtrimmer-trimming -m " google/mt5-small " -l " fr " -v 60000 -p " ckpts/mt5-small-trimmed-fr-60000 "
يبلغ حجم مفردات LMs متعددة اللغات عادةً 250 ألفًا (XLM-R، mBART، mT5)، ونحن نوصي بتعيين حجم المفردات المستهدفة على 60 ألفًا، وهو حجم المفردات الفعال. قد يؤدي حجم المفردات الأقل من 60 ألفًا إلى تدهور الأداء، ولكن يمكن أن يحتفظ بالأداء الأصلي في بعض الحالات (راجع بحثنا). إذا لم يتم تحديد حجم المفردات المستهدفة، فسيتم استخدام المفردات الكاملة التي تظهر في مجموعة بيانات mC4 أو المجموعة المستهدفة المحددة.
يوفر vocabtrimmer
واجهة برمجة التطبيقات (API) لقص LM متعدد اللغات عبر بايثون. يؤدي اتباع الأمر إلى تقليم مفردات google/mt5-small
إلى الفرنسية باستخدام أفضل 60 ألف مفردة.
import vocabtrimmer
trimmer = vocabtrimmer . VocabTrimmer ( "google/mt5-small" )
trimmer . trim_vocab (
path_to_save = "ckpts/mt5-small-trimmed-fr-60000" ,
language = "fr" ,
target_vocab_size = 60000 )
يرجى الاستشهاد بالورقة التالية إذا كنت تستخدم أي مورد والاطلاع على الكود لإعادة إنتاج النموذج إذا لزم الأمر.
@inproceedings{ushio2023efficient,
title = "An Efficient Multilingual Language Model Compression through Vocabulary Trimming",
author = "Ushio, Asahi and
Zhou, Yi and
Camacho-Collados, Jose",
booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP): Findings",
month = Dec,
year = "2023",
address = "",
publisher = "Association for Computational Linguistics",
}