Este repositório contém código e dados para nosso artigo COLING22 Adaptando modelos de linguagem pré-treinados às línguas africanas por meio do ajuste fino adaptativo multilíngue .
Neste artigo, propomos o ajuste fino adaptativo multilingue (MAFT) como um método para adaptar simultaneamente modelos linguísticos pré-treinados multilingues (PLMs) em 17 das línguas com mais recursos de África e três outras línguas com muitos recursos amplamente faladas no continente. Isto é crucial porque, quando utilizados em tarefas posteriores, esses PLMS normalmente mostram um declínio considerável no desempenho em idiomas não observados durante o pré-treinamento. Além disso, como parte da contribuição deste artigo, mostramos que poderíamos especializar o PLM para idiomas africanos, removendo tokens de vocabulário da camada de incorporação deste PLM que não corresponde aos scripts dos idiomas africanos, reduzindo assim efetivamente o tamanho do modelo em 50%. . Comparamos o MAFT a uma estratégia comparável conhecida como ajuste fino adaptativo de linguagem (LAFT) e testamos nossas abordagens sugeridas em três tarefas distintas de PNL para as quais existem conjuntos de dados de línguas africanas. Além disso, a fim de garantir que as nossas técnicas sugeridas sejam testadas em línguas tipologicamente variadas, selecionamos um conjunto de dados único denominado conjunto de dados ANTC- African News Topic Classification, que contém cinco línguas africanas.
Lançamos 2 tipos de modelos pré-treinados (incluem as versões básica e grande):
Esses modelos podem ser baixados de huggingface
Modelos com parâmetros eficientes:
Textos monolíngues usados para treinar adaptadores e ajustes finos esparsos podem ser encontrados no Zenodo
Neste trabalho, avaliamos nossos modelos em três tarefas downstream
NER : Para obter o conjunto de dados NER, faça o download deste repositório
Classificação de texto : para obter o conjunto de dados de classificação de tópicos, faça download deste repositório. Também neste repositório incluímos o conjunto de dados de classificação de texto recém-criado para 5 línguas africanas.
Análise de sentimento : para obter o conjunto de dados de classificação de sentimento, faça download deste repositório
Para realizar MAFT ou LAFT, fornecemos os scripts de treinamento e instruções em ./AdaptiveFinetuning/
. Siga as instruções e execute o comando
bash train.sh
Para redução de vocabulário siga as instruções em ./VocabReduction/
. Você precisa seguir duas etapas. Coleta de subtokens e remoção de subtokens indesejados do vocabulário do PLM.
Para tarefas downstream, consulte ./ClassificationTasks/
.
Se você achar este repositório útil, considere citar nosso artigo.
@inproceedings{alabi-etal-2022-adapting,
title = "Adapting Pre-trained Language Models to {A}frican Languages via Multilingual Adaptive Fine-Tuning",
author = "Alabi, Jesujoba O. and
Adelani, David Ifeoluwa and
Mosbach, Marius and
Klakow, Dietrich",
booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
month = oct,
year = "2022",
address = "Gyeongju, Republic of Korea",
publisher = "International Committee on Computational Linguistics",
url = "https://aclanthology.org/2022.coling-1.382",
pages = "4336--4349",
}