Repositori ini berisi kode dan data untuk makalah COLING22 kami , Mengadaptasi Model Bahasa Terlatih ke Bahasa Afrika melalui Penyempurnaan Adaptif Multibahasa .
Dalam makalah ini, kami mengusulkan penyempurnaan adaptif multibahasa (MAFT) sebagai metode untuk mengadaptasi model bahasa multibahasa yang telah dilatih sebelumnya (PLM) secara bersamaan pada 17 bahasa dengan sumber daya paling banyak di Afrika dan tiga bahasa dengan sumber daya tinggi lainnya yang banyak digunakan di benua tersebut. Hal ini penting karena ketika digunakan pada tugas-tugas hilir, PLMS ini biasanya menunjukkan penurunan kinerja yang cukup besar pada bahasa yang tidak terlihat selama pra-pelatihan. Selain itu, sebagai bagian dari kontribusi makalah ini, kami menunjukkan bahwa kami dapat mengkhususkan PLM pada bahasa-bahasa Afrika dengan menghapus token kosakata dari lapisan penyematan PLM ini yang tidak sesuai dengan skrip bahasa Afrika, sehingga secara efektif mengurangi ukuran model sebesar 50% . Kami membandingkan MAFT dengan strategi serupa yang dikenal sebagai penyempurnaan adaptif bahasa (LAFT), dan kami menguji pendekatan yang kami sarankan pada tiga tugas NLP berbeda yang memiliki kumpulan data bahasa Afrika. Selain itu, untuk memastikan bahwa teknik yang kami sarankan diuji pada bahasa yang tipologisnya bervariasi, kami menyusun kumpulan data unik yang disebut kumpulan data ANTC- African News Topic Classification, yang berisi lima bahasa Afrika.
Kami merilis 2 jenis model terlatih (termasuk versi dasar dan besar):
Model-model ini dapat diunduh dari huggingface
Model Efisien Parameter:
Teks satu bahasa yang digunakan untuk melatih adaptor dan penyesuaian yang jarang dapat ditemukan di Zenodo
Dalam pekerjaan ini, kami mengevaluasi model kami pada tiga tugas hilir
NER : Untuk mendapatkan dataset NER, silakan unduh dari repositori ini
Klasifikasi Teks : Untuk mendapatkan dataset klasifikasi topik, silakan unduh dari repositori ini. Juga dalam repo ini kami telah menyertakan kumpulan data klasifikasi teks yang baru dibuat untuk 5 bahasa Afrika.
Analisis Sentimen : Untuk mendapatkan dataset klasifikasi sentimen, silakan unduh dari repositori ini
Untuk melakukan MAFT atau LAFT, kami telah menyediakan skrip pelatihan dan instruksi di ./AdaptiveFinetuning/
. Ikuti instruksi dan jalankan perintah
bash train.sh
Untuk pengurangan kosakata ikuti instruksi di ./VocabReduction/
. Anda perlu mengikuti dua langkah. Pengumpulan sub-token dan penghapusan sub-token yang tidak diinginkan dari kosakata PLM.
Untuk tugas hilir, lihat ./ClassificationTasks/
.
Jika Anda merasa repost ini bermanfaat, mohon pertimbangkan untuk mengutip makalah kami.
@inproceedings{alabi-etal-2022-adapting,
title = "Adapting Pre-trained Language Models to {A}frican Languages via Multilingual Adaptive Fine-Tuning",
author = "Alabi, Jesujoba O. and
Adelani, David Ifeoluwa and
Mosbach, Marius and
Klakow, Dietrich",
booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
month = oct,
year = "2022",
address = "Gyeongju, Republic of Korea",
publisher = "International Committee on Computational Linguistics",
url = "https://aclanthology.org/2022.coling-1.382",
pages = "4336--4349",
}