afro maftダウンロード - afro maftソースコードのダウンロード

afro maft

その他のソースコード

ダウンロード

AfroXLMR: 多言語適応微調整による事前トレーニング済み言語モデルのアフリカ言語への適応

このリポジトリには、COLING22 論文「Adapting Pre-trained Language Models to Africa Languages via Multilingual Adaptive Fine-Tuning」のコードとデータが含まれています。

この論文では、アフリカで最もリソースが豊富な 17 言語とアフリカで広く話されている他の 3 つの高リソース言語に、多言語で事前トレーニングされた言語モデル (PLM) を同時に適応させる方法として、多言語適応微調整 (MAFT) を提案します。これらの PLMS は通常、下流タスクで使用すると、事前トレーニング中には見られなかった言語でのパフォーマンスの大幅な低下を示すため、これは非常に重要です。さらに、この論文の貢献の一環として、アフリカ言語の文字に対応しないこの PLM の埋め込み層から語彙トークンを削除することで、PLM をアフリカ言語に特化できることを示しました。これにより、モデルサイズが効果的に 50% 削減されます。。私たちは MAFT を言語適応微調整 (LAFT) として知られる同等の戦略と比較し、アフリカ言語のデータセットが存在する 3 つの異なる NLP タスクに対して提案されたアプローチをテストしました。さらに、私たちが提案した手法が類型的に多様な言語で確実にテストされるようにするために、アフリカの 5 つの言語を含む ANTC-アフリカニューストピック分類データセットと呼ばれる独自のデータセットを厳選しました。

事前訓練されたモデル

2 種類の事前トレーニング済みモデルをリリースします (基本バージョンと大規模バージョンの両方が含まれます)。

20 言語の XLM-R + MAFT (例: AfroXLMR)
20 言語の XLM-R + LAFT

これらのモデルは、huggingface からダウンロードできます。

パラメータ効率の高いモデル:

AfroXLMR のスパース微調整
Zenodo の AfroXLMR の MAD-X 2.0 アダプター

アダプターのトレーニングとスパースの微調整に使用される単言語テキストは Zenodo で見つけることができます。

データセット

この作業では、3 つの下流タスクでモデルを評価しました。

NER : NER データセットを取得するには、このリポジトリからダウンロードしてください

テキスト分類: トピック分類データセットを取得するには、このリポジトリからダウンロードしてください。また、このリポジトリには、アフリカの 5 つの言語用に新しく作成されたテキスト分類データセットが含まれています。

センチメント分析: センチメント分類データセットを取得するには、このリポジトリからダウンロードしてください。

訓練・実験

MAFT または LAFT を実行するために、トレーニングスクリプトと指示が./AdaptiveFinetuning/で提供されています。指示に従ってコマンドを実行します

 bash train.sh

語彙を減らすには、 ./VocabReduction/の指示に従ってください。 2 つの手順に従う必要があります。サブトークンの収集と、PLM のボキャブラリからの不要なサブトークンの削除。

ダウンストリームタスクについては、 ./ClassificationTasks/を参照してください。

引用

このリポジトリが役立つと思われる場合は、論文の引用を検討してください。

 @inproceedings{alabi-etal-2022-adapting,
    title = "Adapting Pre-trained Language Models to {A}frican Languages via Multilingual Adaptive Fine-Tuning",
    author = "Alabi, Jesujoba O.  and
      Adelani, David Ifeoluwa  and
      Mosbach, Marius  and
      Klakow, Dietrich",
    booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
    month = oct,
    year = "2022",
    address = "Gyeongju, Republic of Korea",
    publisher = "International Committee on Computational Linguistics",
    url = "https://aclanthology.org/2022.coling-1.382",
    pages = "4336--4349",
}

拡大する

追加情報