이 저장소에는 COLING22 논문 Adapting Pre-trained Language Models to African Languages via Multilingual Adaptive Fine-Tuning 에 대한 코드와 데이터가 포함되어 있습니다.
본 논문에서는 아프리카에서 가장 자원이 풍부한 언어 17개와 아프리카 대륙에서 널리 사용되는 기타 고자원 언어 3개에 대해 다국어 사전 훈련된 언어 모델(PLM)을 동시에 적용하는 방법으로 MAFT(다국어 적응형 미세 조정)를 제안합니다. 다운스트림 작업에 활용될 때 이러한 PLMS는 일반적으로 사전 학습 중에 볼 수 없는 언어에 대한 성능이 크게 저하되기 때문에 이는 중요합니다. 또한, 본 논문의 기여의 일환으로 아프리카 언어 스크립트에 해당하지 않는 이 PLM의 임베딩 레이어에서 어휘 토큰을 제거하여 모델 크기를 효과적으로 50% 줄임으로써 PLM을 아프리카 언어로 전문화할 수 있음을 보여주었습니다. . 우리는 MAFT를 LAFT(언어 적응형 미세 조정)로 알려진 유사한 전략과 비교하고 아프리카 언어 데이터 세트가 존재하는 세 가지 고유한 NLP 작업에 대해 제안된 접근 방식을 테스트했습니다. 또한 제안된 기술이 유형적으로 다양한 언어에서 테스트되었는지 확인하기 위해 5개의 아프리카 언어가 포함된 ANTC-아프리카 뉴스 주제 분류 데이터 세트라는 고유한 데이터 세트를 선별했습니다.
우리는 2가지 종류의 사전 학습된 모델을 출시합니다(기본 버전과 대형 버전이 모두 포함됨).
이 모델은 Huggingface에서 다운로드할 수 있습니다.
매개변수 효율적인 모델:
어댑터 훈련 및 희박한 미세 조정에 사용되는 단일 언어 텍스트는 Zenodo에서 찾을 수 있습니다.
이 작업에서 우리는 세 가지 다운스트림 작업에 대한 모델을 평가했습니다.
NER : NER 데이터 세트를 얻으려면 이 저장소에서 다운로드하십시오.
텍스트 분류 : 주제 분류 데이터세트를 얻으려면 이 저장소에서 다운로드하세요. 또한 이 저장소에는 5개 아프리카 언어에 대해 새로 생성된 텍스트 분류 데이터세트가 포함되어 있습니다.
감정 분석 : 감정 분류 데이터세트를 얻으려면 이 저장소에서 다운로드하세요.
MAFT 또는 LAFT를 수행하기 위해 ./AdaptiveFinetuning/
에 교육 스크립트와 지침이 제공되었습니다. 지시에 따라 명령을 실행하십시오.
bash train.sh
어휘 감소를 위해서는 ./VocabReduction/
의 지침을 따르십시오. 두 단계를 따라야 합니다. 하위 토큰 수집 및 PLM 어휘에서 원치 않는 하위 토큰 제거.
다운스트림 작업에 대해서는 ./ClassificationTasks/
참조하세요.
이 저장소가 유용하다고 생각되면 우리 논문을 인용하는 것을 고려해 보십시오.
@inproceedings{alabi-etal-2022-adapting,
title = "Adapting Pre-trained Language Models to {A}frican Languages via Multilingual Adaptive Fine-Tuning",
author = "Alabi, Jesujoba O. and
Adelani, David Ifeoluwa and
Mosbach, Marius and
Klakow, Dietrich",
booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
month = oct,
year = "2022",
address = "Gyeongju, Republic of Korea",
publisher = "International Committee on Computational Linguistics",
url = "https://aclanthology.org/2022.coling-1.382",
pages = "4336--4349",
}