يحتوي هذا المستودع على تعليمات برمجية وبيانات لورقة COLING22 الخاصة بنا وهي تكييف نماذج اللغة المدربة مسبقًا مع اللغات الأفريقية من خلال الضبط الدقيق التكيفي متعدد اللغات .
في هذه الورقة، نقترح الضبط الدقيق التكيفي متعدد اللغات (MAFT) كوسيلة للتكيف في الوقت نفسه مع نماذج اللغات متعددة اللغات المدربة مسبقًا (PLMs) على 17 لغة من أكثر اللغات الأفريقية موارد وثلاث لغات أخرى عالية الموارد منتشرة على نطاق واسع في القارة. يعد هذا أمرًا بالغ الأهمية نظرًا لأنه عند استخدامه في المهام النهائية، تظهر PLMS عادةً انخفاضًا كبيرًا في الأداء على اللغات التي لم يتم رؤيتها أثناء التدريب المسبق. علاوة على ذلك، وكجزء من مساهمة هذه الورقة، أظهرنا أنه يمكننا تخصيص PLM للغات الأفريقية عن طريق إزالة رموز المفردات من طبقة التضمين في PLM هذه التي لا تتوافق مع نصوص اللغة الأفريقية، وبالتالي تقليل حجم النموذج بشكل فعال بنسبة 50٪ . قمنا بمقارنة MAFT باستراتيجية مماثلة تُعرف باسم الضبط الدقيق للتكيف اللغوي (LAFT)، وقمنا باختبار أساليبنا المقترحة في ثلاث مهام متميزة للبرمجة اللغوية العصبية والتي توجد لها مجموعات بيانات اللغة الأفريقية. علاوة على ذلك، ومن أجل ضمان اختبار تقنياتنا المقترحة على لغات متنوعة تصنيفيًا، قمنا برعاية مجموعة بيانات فريدة تسمى ANTC- مجموعة بيانات تصنيف موضوعات الأخبار الأفريقية، والتي تحتوي على خمس لغات أفريقية.
قمنا بإصدار نوعين من النماذج المُدربة مسبقًا (تتضمن كلا من الإصدارين الأساسي والكبير):
يمكن تنزيل هذه النماذج من Huggingface
نماذج فعالة المعلمة:
يمكن العثور على النصوص أحادية اللغة المستخدمة لتدريب المحولات والضبط الدقيق المتناثر على Zenodo
في هذا العمل، قمنا بتقييم نماذجنا على ثلاث مهام المصب
NER : للحصول على مجموعة بيانات NER، يرجى تنزيلها من هذا المستودع
تصنيف النص : للحصول على مجموعة بيانات تصنيف الموضوع، يرجى تنزيلها من هذا المستودع. قمنا أيضًا في هذا الريبو بتضمين مجموعة بيانات تصنيف النص التي تم إنشاؤها حديثًا لخمس لغات أفريقية.
تحليل المشاعر : للحصول على مجموعة بيانات تصنيف المشاعر، يرجى تنزيلها من هذا المستودع
لتنفيذ MAFT أو LAFT، قمنا بتوفير البرامج النصية والتدريبية والتعليمات في ./AdaptiveFinetuning/
. اتبع التعليمات وقم بتشغيل الأمر
bash train.sh
لتقليل المفردات اتبع التعليمات الموجودة في ./VocabReduction/
. عليك اتباع خطوتين. جمع الرمز الفرعي وإزالة الرمز الفرعي غير المرغوب فيه من مفردات PLM.
بالنسبة للمهام النهائية، راجع ./ClassificationTasks/
.
إذا وجدت هذا المستودع مفيدًا، فيرجى التفكير في الاستشهاد بمقالتنا.
@inproceedings{alabi-etal-2022-adapting,
title = "Adapting Pre-trained Language Models to {A}frican Languages via Multilingual Adaptive Fine-Tuning",
author = "Alabi, Jesujoba O. and
Adelani, David Ifeoluwa and
Mosbach, Marius and
Klakow, Dietrich",
booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
month = oct,
year = "2022",
address = "Gyeongju, Republic of Korea",
publisher = "International Committee on Computational Linguistics",
url = "https://aclanthology.org/2022.coling-1.382",
pages = "4336--4349",
}