该存储库包含我们的 COLING22 论文《通过多语言自适应微调使预训练语言模型适应非洲语言》的代码和数据。
在本文中,我们提出了多语言自适应微调 (MAFT) 作为一种方法,用于同时适应 17 种非洲资源最丰富的语言和非洲大陆广泛使用的其他三种资源丰富语言的多语言预训练语言模型 (PLM)。这一点至关重要,因为当用于下游任务时,这些 PLMS 通常会在预训练期间未见的语言上表现出相当大的性能下降。此外,作为本文贡献的一部分,我们表明,我们可以通过从 PLM 的嵌入层中删除与非洲语言脚本不对应的词汇标记,将 PLM 专门用于非洲语言,从而有效地将模型大小减少 50% 。我们将 MAFT 与称为语言自适应微调 (LAFT) 的类似策略进行了比较,并在存在非洲语言数据集的三个不同 NLP 任务上测试了我们建议的方法。此外,为了确保我们建议的技术在不同类型的语言上进行测试,我们策划了一个名为 ANTC-非洲新闻主题分类数据集的独特数据集,其中包含五种非洲语言。
我们发布了两种预训练模型(包括基础版本和大型版本):
这些模型可以从huggingface下载
参数有效模型:
用于训练适配器和稀疏微调的单语文本可以在 Zenodo 上找到
在这项工作中,我们评估了三个下游任务的模型
NER :要获取 NER 数据集,请从此存储库下载
文本分类:要获取主题分类数据集,请从此存储库下载。此外,在此存储库中,我们还包含了新创建的 5 种非洲语言的文本分类数据集。
情感分析:要获取情感分类数据集,请从此存储库下载
为了执行 MAFT 或 LAFT,我们在./AdaptiveFinetuning/
中提供了训练脚本和说明。按照说明并运行命令
bash train.sh
要减少词汇量,请遵循./VocabReduction/
中的说明。您需要执行两个步骤。子令牌收集以及从 PLM 词汇表中删除不需要的子令牌。
对于下游任务,请参阅./ClassificationTasks/
。
如果您发现此存储库有用,请考虑引用我们的论文。
@inproceedings{alabi-etal-2022-adapting,
title = "Adapting Pre-trained Language Models to {A}frican Languages via Multilingual Adaptive Fine-Tuning",
author = "Alabi, Jesujoba O. and
Adelani, David Ifeoluwa and
Mosbach, Marius and
Klakow, Dietrich",
booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
month = oct,
year = "2022",
address = "Gyeongju, Republic of Korea",
publisher = "International Committee on Computational Linguistics",
url = "https://aclanthology.org/2022.coling-1.382",
pages = "4336--4349",
}