Ce référentiel contient du code et des données pour notre article COLING22 Adapting Pre-training Language Models to African Languages via Multilingual Adaptive Fine-Tuning .
Dans cet article, nous proposons le réglage fin adaptatif multilingue (MAFT) comme méthode d'adaptation simultanée de modèles linguistiques pré-entraînés (PLM) multilingues sur 17 des langues les plus riches en ressources d'Afrique et trois autres langues riches en ressources largement parlées sur le continent. Ceci est crucial car lorsqu'ils sont utilisés sur des tâches en aval, ces PLMS montrent généralement une baisse considérable des performances sur les langages non constatés lors de la pré-formation. De plus, dans le cadre de la contribution de cet article, nous avons montré que nous pouvions spécialiser le PLM aux langues africaines en supprimant les jetons de vocabulaire de la couche d'intégration de ce PLM qui ne correspondent pas aux écritures des langues africaines, réduisant ainsi efficacement la taille du modèle de 50 %. . Nous avons comparé MAFT à une stratégie comparable connue sous le nom de réglage fin adaptatif du langage (LAFT), et nous avons testé nos approches suggérées sur trois tâches distinctes de PNL pour lesquelles il existe des ensembles de données sur les langues africaines. De plus, afin de garantir que nos techniques suggérées sont testées sur des langues typologiquement variées, nous avons organisé un ensemble de données unique appelé ensemble de données ANTC-African News Topic Classification, qui contient cinq langues africaines.
Nous publions 2 types de modèles pré-entraînés (ils incluent à la fois les versions de base et grandes) :
Ces modèles peuvent être téléchargés depuis huggingface
Modèles efficaces en termes de paramètres :
Des textes monolingues utilisés pour former les adaptateurs et des réglages clairsemés peuvent être trouvés sur Zenodo
Dans ce travail, nous avons évalué nos modèles sur trois tâches en aval
NER : Pour obtenir l'ensemble de données NER, veuillez le télécharger depuis ce référentiel
Classification de texte : pour obtenir l'ensemble de données de classification des sujets, veuillez le télécharger à partir de ce référentiel. Également dans ce référentiel, nous avons inclus l'ensemble de données de classification de texte nouvellement créé pour 5 langues africaines.
Analyse des sentiments : pour obtenir l'ensemble de données de classification des sentiments, veuillez le télécharger à partir de ce référentiel.
Pour exécuter MAFT ou LAFT, nous avons fourni les scripts de formation et les instructions dans ./AdaptiveFinetuning/
. Suivez les instructions et exécutez la commande
bash train.sh
Pour la réduction du vocabulaire, suivez les instructions dans ./VocabReduction/
. Vous devez suivre deux étapes. Collecte de sous-tokens et suppression des sous-tokens indésirables du vocabulaire du PLM.
Pour les tâches en aval, voir ./ClassificationTasks/
.
Si vous trouvez ce dépôt utile, pensez à citer notre article.
@inproceedings{alabi-etal-2022-adapting,
title = "Adapting Pre-trained Language Models to {A}frican Languages via Multilingual Adaptive Fine-Tuning",
author = "Alabi, Jesujoba O. and
Adelani, David Ifeoluwa and
Mosbach, Marius and
Klakow, Dietrich",
booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
month = oct,
year = "2022",
address = "Gyeongju, Republic of Korea",
publisher = "International Committee on Computational Linguistics",
url = "https://aclanthology.org/2022.coling-1.382",
pages = "4336--4349",
}