Dieses Repository enthält Code und Daten für unser COLING22-Papier Adapting Pre-trained Language Models to African Languages via Multilingual Adaptive Fine-Tuning .
In diesem Artikel schlagen wir die mehrsprachige adaptive Feinabstimmung (MAFT) als Methode zur gleichzeitigen Anpassung mehrsprachiger vorab trainierter Sprachmodelle (PLMs) an 17 der ressourcenreichsten Sprachen Afrikas und drei weitere ressourcenreichste Sprachen vor, die auf dem Kontinent weit verbreitet sind. Dies ist von entscheidender Bedeutung, da diese PLMS bei der Verwendung für nachgelagerte Aufgaben typischerweise einen erheblichen Leistungsabfall bei Sprachen aufweisen, die während des Vortrainings nicht beobachtet wurden. Darüber hinaus haben wir im Rahmen des Beitrags zu diesem Artikel gezeigt, dass wir PLM auf afrikanische Sprachen spezialisieren können, indem wir Vokabeltokens aus der Einbettungsschicht dieses PLM entfernen, die nicht den Schriften afrikanischer Sprachen entsprechen, und so die Modellgröße effektiv um 50 % reduzieren. . Wir haben MAFT mit einer vergleichbaren Strategie namens Language Adaptive Fine-Tuning (LAFT) verglichen und unsere vorgeschlagenen Ansätze an drei verschiedenen NLP-Aufgaben getestet, für die afrikanische Sprachdatensätze existieren. Um sicherzustellen, dass unsere vorgeschlagenen Techniken an typologisch unterschiedlichen Sprachen getestet werden, haben wir außerdem einen einzigartigen Datensatz namens ANTC – African News Topic Classification Dataset kuratiert, der fünf afrikanische Sprachen enthält.
Wir veröffentlichen zwei Arten vorab trainierter Modelle (sie umfassen sowohl die Basis- als auch die große Version):
Diese Modelle können von Huggingface heruntergeladen werden
Parametereffiziente Modelle:
Einsprachige Texte zum Trainieren von Adaptern und spärlichen Feinabstimmungen finden Sie auf Zenodo
In dieser Arbeit haben wir unsere Modelle anhand von drei nachgelagerten Aufgaben bewertet
NER : Um den NER-Datensatz zu erhalten, laden Sie ihn bitte aus diesem Repository herunter
Textklassifizierung : Um den Themenklassifizierungsdatensatz zu erhalten, laden Sie ihn bitte aus diesem Repository herunter. Außerdem haben wir in diesem Repo den neu erstellten Textklassifizierungsdatensatz für 5 afrikanische Sprachen aufgenommen.
Stimmungsanalyse : Um den Stimmungsklassifizierungsdatensatz zu erhalten, laden Sie ihn bitte aus diesem Repository herunter
Um MAFT oder LAFT durchzuführen, haben wir die Schulungsskripte und Anweisungen in ./AdaptiveFinetuning/
bereitgestellt. Befolgen Sie die Anweisungen und führen Sie den Befehl aus
bash train.sh
Befolgen Sie zur Reduzierung des Wortschatzes die Anweisungen unter ./VocabReduction/
. Sie müssen zwei Schritte befolgen. Sammlung von Sub-Tokens und Entfernung unerwünschter Sub-Tokens aus dem Vokabular des PLM.
Informationen zu nachgelagerten Aufgaben finden Sie unter ./ClassificationTasks/
.
Wenn Sie diese Reposition nützlich finden, denken Sie bitte darüber nach, unser Papier zu zitieren.
@inproceedings{alabi-etal-2022-adapting,
title = "Adapting Pre-trained Language Models to {A}frican Languages via Multilingual Adaptive Fine-Tuning",
author = "Alabi, Jesujoba O. and
Adelani, David Ifeoluwa and
Mosbach, Marius and
Klakow, Dietrich",
booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
month = oct,
year = "2022",
address = "Gyeongju, Republic of Korea",
publisher = "International Committee on Computational Linguistics",
url = "https://aclanthology.org/2022.coling-1.382",
pages = "4336--4349",
}