พื้นที่เก็บข้อมูลนี้ประกอบด้วยรหัสและข้อมูลสำหรับรายงาน COLING22 ของเรา การปรับโมเดลภาษาที่ได้รับการฝึกอบรมล่วงหน้าเป็นภาษาแอฟริกันผ่านการปรับแต่งแบบละเอียดแบบหลายภาษา
ในบทความนี้ เราขอเสนอการปรับอย่างละเอียดแบบหลายภาษา (MAFT) เพื่อเป็นวิธีการปรับใช้แบบจำลองภาษาก่อนการฝึกอบรมหลายภาษา (PLM) ในภาษาที่มีทรัพยากรมากที่สุด 17 ภาษาในแอฟริกาและภาษาที่มีทรัพยากรสูงอีกสามภาษาที่พูดกันอย่างแพร่หลายในทวีปนี้ นี่เป็นสิ่งสำคัญเนื่องจากเมื่อใช้กับงานดาวน์สตรีม โดยทั่วไป PLMS เหล่านี้จะแสดงประสิทธิภาพที่ลดลงอย่างมากในภาษาที่ไม่พบในระหว่างการฝึกล่วงหน้า นอกจากนี้ ในฐานะส่วนหนึ่งของการมีส่วนร่วมของบทความนี้ เราได้แสดงให้เห็นว่าเราสามารถเชี่ยวชาญ PLM เป็นภาษาแอฟริกันโดยการลบโทเค็นคำศัพท์ออกจากเลเยอร์ที่ฝังของ PLM นี้ซึ่งไม่สอดคล้องกับสคริปต์ภาษาแอฟริกัน จึงลดขนาดแบบจำลองลง 50% ได้อย่างมีประสิทธิภาพ . เราเปรียบเทียบ MAFT กับกลยุทธ์ที่เทียบเคียงได้ซึ่งเรียกว่าการปรับแต่งภาษาแบบปรับให้เหมาะสม (LAFT) และเราทดสอบแนวทางที่แนะนำของเราในงาน NLP ที่แตกต่างกันสามงานซึ่งมีชุดข้อมูลภาษาแอฟริกันอยู่ นอกจากนี้ เพื่อให้แน่ใจว่าเทคนิคที่แนะนำของเราได้รับการทดสอบในภาษาที่แตกต่างกันตามประเภท เราจึงได้รวบรวมชุดข้อมูลเฉพาะที่เรียกว่าชุดข้อมูล ANTC- African News Topic Classification ซึ่งประกอบด้วยภาษาแอฟริกัน 5 ภาษา
เราออกโมเดลฝึกหัด 2 แบบ (มีทั้งรุ่นพื้นฐานและรุ่นใหญ่):
โมเดลเหล่านี้สามารถดาวน์โหลดได้จาก Huggingface
พารามิเตอร์ที่มีประสิทธิภาพรุ่น:
ข้อความภาษาเดียวที่ใช้ในการฝึกอะแดปเตอร์และการปรับแต่งแบบละเอียดสามารถพบได้บน Zenodo
ในงานนี้ เราได้ประเมินแบบจำลองของเราในงานดาวน์สตรีมสามงาน
NER : หากต้องการรับชุดข้อมูล NER โปรดดาวน์โหลดจากพื้นที่เก็บข้อมูลนี้
การจัดประเภทข้อความ : หากต้องการรับชุดข้อมูลการจัดหมวดหมู่หัวข้อ โปรดดาวน์โหลดจากพื้นที่เก็บข้อมูลนี้ นอกจากนี้ ใน repo นี้ เราได้รวมชุดข้อมูลการจัดหมวดหมู่ข้อความที่สร้างขึ้นใหม่สำหรับภาษาแอฟริกัน 5 ภาษา
การวิเคราะห์ความรู้สึก : หากต้องการรับชุดข้อมูลการจำแนกประเภทความรู้สึก โปรดดาวน์โหลดจากพื้นที่เก็บข้อมูลนี้
ในการดำเนินการ MAFT หรือ LAFT เราได้จัดเตรียมสคริปต์การฝึกอบรมและคำแนะนำใน ./AdaptiveFinetuning/
AdaptiveFinetuning/ ปฏิบัติตามคำแนะนำและรันคำสั่ง
bash train.sh
สำหรับการลดคำศัพท์ ให้ทำตามคำแนะนำใน ./VocabReduction/
/ คุณต้องปฏิบัติตามสองขั้นตอน การรวบรวมโทเค็นย่อยและการลบโทเค็นย่อยที่ไม่ต้องการออกจากคำศัพท์ของ PLM
สำหรับงานดาวน์สตรีม โปรดดู ./ClassificationTasks/
/
หากคุณพบว่าที่เก็บข้อมูลนี้มีประโยชน์ โปรดพิจารณาอ้างอิงเอกสารของเรา
@inproceedings{alabi-etal-2022-adapting,
title = "Adapting Pre-trained Language Models to {A}frican Languages via Multilingual Adaptive Fine-Tuning",
author = "Alabi, Jesujoba O. and
Adelani, David Ifeoluwa and
Mosbach, Marius and
Klakow, Dietrich",
booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
month = oct,
year = "2022",
address = "Gyeongju, Republic of Korea",
publisher = "International Committee on Computational Linguistics",
url = "https://aclanthology.org/2022.coling-1.382",
pages = "4336--4349",
}