該儲存庫包含我們的 COLING22 論文《透過多語言自適應微調使預訓練語言模型適應非洲語言》的程式碼和資料。
在本文中,我們提出了多語言自適應微調(MAFT) 作為一種方法,用於同時適應17 種非洲資源最豐富的語言和非洲大陸廣泛使用的其他三種資源豐富語言的多語言預訓練語言模型(PLM)。這一點至關重要,因為當用於下游任務時,這些 PLMS 通常會在預訓練期間未見的語言上表現出相當大的表現下降。此外,作為本文貢獻的一部分,我們表明,我們可以透過從 PLM 的嵌入層中刪除與非洲語言腳本不對應的詞彙標記,將 PLM 專門用於非洲語言,從而有效地將模型大小減少 50% 。我們將 MAFT 與稱為語言自適應微調 (LAFT) 的類似策略進行了比較,並在存在非洲語言資料集的三個不同 NLP 任務上測試了我們建議的方法。此外,為了確保我們建議的技術在不同類型的語言上進行測試,我們策劃了一個名為 ANTC-非洲新聞主題分類資料集的獨特資料集,其中包含五種非洲語言。
我們發布了兩種預訓練模型(包括基礎版本和大型版本):
這些模型可以從huggingface下載
參數有效模型:
用於訓練適配器和稀疏微調的單語文字可以在 Zenodo 上找到
在這項工作中,我們評估了三個下游任務的模型
NER :若要取得 NER 資料集,請從此儲存庫下載
文字分類:若要取得主題分類資料集,請從此儲存庫下載。此外,在此儲存庫中,我們還包含了新建立的 5 種非洲語言的文字分類資料集。
情緒分析:若要取得情緒分類資料集,請從此儲存庫下載
為了執行 MAFT 或 LAFT,我們在./AdaptiveFinetuning/
中提供了訓練腳本和說明。按照說明並運行命令
bash train.sh
要減少詞彙量,請遵循./VocabReduction/
中的說明。您需要執行兩個步驟。子令牌收集以及從 PLM 詞彙表中刪除不需要的子令牌。
下游任務,請參閱./ClassificationTasks/
。
如果您發現此存儲庫有用,請考慮引用我們的論文。
@inproceedings{alabi-etal-2022-adapting,
title = "Adapting Pre-trained Language Models to {A}frican Languages via Multilingual Adaptive Fine-Tuning",
author = "Alabi, Jesujoba O. and
Adelani, David Ifeoluwa and
Mosbach, Marius and
Klakow, Dietrich",
booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
month = oct,
year = "2022",
address = "Gyeongju, Republic of Korea",
publisher = "International Committee on Computational Linguistics",
url = "https://aclanthology.org/2022.coling-1.382",
pages = "4336--4349",
}