Este repositorio contiene códigos y datos para nuestro artículo COLING22 Adaptación de modelos lingüísticos previamente entrenados a lenguas africanas mediante un ajuste fino adaptativo multilingüe .
En este artículo, proponemos el ajuste fino adaptativo multilingüe (MAFT) como un método para adaptar simultáneamente modelos lingüísticos multilingües previamente entrenados (PLM) en 17 de los idiomas con mayores recursos de África y otros tres idiomas con altos recursos que se hablan ampliamente en el continente. Esto es crucial ya que cuando se utilizan en tareas posteriores, estos PLMS generalmente muestran una disminución considerable en el rendimiento en idiomas que no se observan durante el entrenamiento previo. Además, como parte de la contribución de este artículo, demostramos que podíamos especializar PLM en idiomas africanos eliminando tokens de vocabulario de la capa de incrustación de este PLM que no corresponden a las escrituras de idiomas africanos, reduciendo así efectivamente el tamaño del modelo en un 50%. . Comparamos MAFT con una estrategia comparable conocida como ajuste fino adaptativo del lenguaje (LAFT) y probamos nuestros enfoques sugeridos en tres tareas distintas de PNL para las cuales existen conjuntos de datos de idiomas africanos. Además, para garantizar que nuestras técnicas sugeridas se prueben en idiomas tipológicamente variados, seleccionamos un conjunto de datos único llamado ANTC- Conjunto de datos de clasificación de temas de noticias africanas, que contiene cinco idiomas africanos.
Lanzamos 2 tipos de modelos previamente entrenados (incluyen tanto la versión básica como la grande):
Estos modelos se pueden descargar desde huggingface.
Modelos eficientes en parámetros:
En Zenodo se pueden encontrar textos monolingües utilizados para entrenar adaptadores y escasos ajustes
En este trabajo, evaluamos nuestros modelos en tres tareas posteriores.
NER : para obtener el conjunto de datos NER, descárguelo de este repositorio
Clasificación de texto : para obtener el conjunto de datos de clasificación de temas, descárguelo de este repositorio. También en este repositorio hemos incluido el conjunto de datos de clasificación de texto recién creado para 5 idiomas africanos.
Análisis de sentimiento : para obtener el conjunto de datos de clasificación de sentimiento, descárguelo de este repositorio.
Para realizar MAFT o LAFT, proporcionamos los guiones de capacitación y las instrucciones en ./AdaptiveFinetuning/
. Siga las instrucciones y ejecute el comando.
bash train.sh
Para reducir el vocabulario, siga las instrucciones en ./VocabReduction/
. Debes seguir dos pasos. Recopilación de subtokens y eliminación de subtokens no deseados del vocabulario del PLM.
Para tareas posteriores, consulte ./ClassificationTasks/
.
Si encuentra útil este repositorio, considere citar nuestro artículo.
@inproceedings{alabi-etal-2022-adapting,
title = "Adapting Pre-trained Language Models to {A}frican Languages via Multilingual Adaptive Fine-Tuning",
author = "Alabi, Jesujoba O. and
Adelani, David Ifeoluwa and
Mosbach, Marius and
Klakow, Dietrich",
booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
month = oct,
year = "2022",
address = "Gyeongju, Republic of Korea",
publisher = "International Committee on Computational Linguistics",
url = "https://aclanthology.org/2022.coling-1.382",
pages = "4336--4349",
}