Этот репозиторий содержит код и данные для нашей статьи COLING22 «Адаптация предварительно обученных языковых моделей к африканским языкам посредством многоязычной адаптивной тонкой настройки» .
В этой статье мы предлагаем многоязычную адаптивную тонкую настройку (MAFT) как метод одновременной адаптации многоязычных предварительно обученных языковых моделей (PLM) на 17 наиболее богатых ресурсами языках Африки и трех других языках с высокими ресурсами, широко распространенных на континенте. Это очень важно, поскольку при использовании этих PLMS для последующих задач обычно наблюдается значительное снижение производительности на языках, не замеченное во время предварительного обучения. Кроме того, в рамках этой статьи мы показали, что можем специализировать PLM на африканских языках, удалив словарные токены из уровня внедрения этого PLM, который не соответствует алфавитам африканских языков, тем самым эффективно уменьшив размер модели на 50%. . Мы сравнили MAFT с аналогичной стратегией, известной как точная настройка языковой адаптации (LAFT), и протестировали предлагаемые нами подходы на трех различных задачах НЛП, для которых существуют наборы данных африканских языков. Кроме того, чтобы гарантировать, что предлагаемые нами методы будут проверены на типологически различных языках, мы создали уникальный набор данных под названием ANTC — набор данных классификации африканских новостей, который содержит пять африканских языков.
Мы выпускаем 2 вида предварительно обученных моделей (в их число входят как базовые, так и большие версии):
Эти модели можно скачать с сайта Huggingface.
Модели с эффективным параметром:
Одноязычные тексты, используемые для обучения адаптеров и редких тонких настроек, можно найти на Zenodo.
В этой работе мы оценили наши модели на трех последующих задачах.
NER : Чтобы получить набор данных NER, загрузите его из этого репозитория.
Классификация текста : чтобы получить набор данных классификации тем, загрузите его из этого репозитория. Также в этот репозиторий мы включили недавно созданный набор данных классификации текста для 5 африканских языков.
Анализ настроений : чтобы получить набор данных классификации настроений, загрузите его из этого репозитория.
Для выполнения MAFT или LAFT мы предоставили сценарии обучения и инструкции в ./AdaptiveFinetuning/
. Следуйте инструкциям и выполните команду
bash train.sh
Для сокращения словарного запаса следуйте инструкциям в ./VocabReduction/
. Вам необходимо выполнить два шага. Сбор субтокенов и удаление ненужных субтокенов из словаря PLM.
Дополнительные задачи см. в разделе ./ClassificationTasks/
.
Если вы найдете этот репозиторий полезным, пожалуйста, рассмотрите возможность цитирования нашей статьи.
@inproceedings{alabi-etal-2022-adapting,
title = "Adapting Pre-trained Language Models to {A}frican Languages via Multilingual Adaptive Fine-Tuning",
author = "Alabi, Jesujoba O. and
Adelani, David Ifeoluwa and
Mosbach, Marius and
Klakow, Dietrich",
booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
month = oct,
year = "2022",
address = "Gyeongju, Republic of Korea",
publisher = "International Committee on Computational Linguistics",
url = "https://aclanthology.org/2022.coling-1.382",
pages = "4336--4349",
}