このリポジトリには、COLING22 論文「Adapting Pre-trained Language Models to Africa Languages via Multilingual Adaptive Fine-Tuning」のコードとデータが含まれています。
この論文では、アフリカで最もリソースが豊富な 17 言語とアフリカで広く話されている他の 3 つの高リソース言語に、多言語で事前トレーニングされた言語モデル (PLM) を同時に適応させる方法として、多言語適応微調整 (MAFT) を提案します。これらの PLMS は通常、下流タスクで使用すると、事前トレーニング中には見られなかった言語でのパフォーマンスの大幅な低下を示すため、これは非常に重要です。さらに、この論文の貢献の一環として、アフリカ言語の文字に対応しないこの PLM の埋め込み層から語彙トークンを削除することで、PLM をアフリカ言語に特化できることを示しました。これにより、モデル サイズが効果的に 50% 削減されます。 。私たちは MAFT を言語適応微調整 (LAFT) として知られる同等の戦略と比較し、アフリカ言語のデータセットが存在する 3 つの異なる NLP タスクに対して提案されたアプローチをテストしました。さらに、私たちが提案した手法が類型的に多様な言語で確実にテストされるようにするために、アフリカの 5 つの言語を含む ANTC-アフリカ ニュース トピック分類データセットと呼ばれる独自のデータセットを厳選しました。
2 種類の事前トレーニング済みモデルをリリースします (基本バージョンと大規模バージョンの両方が含まれます)。
これらのモデルは、huggingface からダウンロードできます。
パラメータ効率の高いモデル:
アダプターのトレーニングとスパースの微調整に使用される単言語テキストは Zenodo で見つけることができます。
この作業では、3 つの下流タスクでモデルを評価しました。
NER : NER データセットを取得するには、このリポジトリからダウンロードしてください
テキスト分類: トピック分類データセットを取得するには、このリポジトリからダウンロードしてください。また、このリポジトリには、アフリカの 5 つの言語用に新しく作成されたテキスト分類データセットが含まれています。
センチメント分析: センチメント分類データセットを取得するには、このリポジトリからダウンロードしてください。
MAFT または LAFT を実行するために、トレーニング スクリプトと指示が./AdaptiveFinetuning/
で提供されています。指示に従ってコマンドを実行します
bash train.sh
語彙を減らすには、 ./VocabReduction/
の指示に従ってください。 2 つの手順に従う必要があります。サブトークンの収集と、PLM のボキャブラリからの不要なサブトークンの削除。
ダウンストリーム タスクについては、 ./ClassificationTasks/
を参照してください。
このリポジトリが役立つと思われる場合は、論文の引用を検討してください。
@inproceedings{alabi-etal-2022-adapting,
title = "Adapting Pre-trained Language Models to {A}frican Languages via Multilingual Adaptive Fine-Tuning",
author = "Alabi, Jesujoba O. and
Adelani, David Ifeoluwa and
Mosbach, Marius and
Klakow, Dietrich",
booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
month = oct,
year = "2022",
address = "Gyeongju, Republic of Korea",
publisher = "International Committee on Computational Linguistics",
url = "https://aclanthology.org/2022.coling-1.382",
pages = "4336--4349",
}