Baca README インドネシア語。
IndoNLG は、6 種類の下流タスクを備えたインドネシア語用の自然言語生成 (NLG) リソースのコレクションです。結果を再現するコードと、約 40 億単語のコーパス ( Indo4B-Plus )、約 25 GB のテキスト データでトレーニングされた大規模な事前トレーニング済みモデル ( IndoBARTおよびIndoGPT ) を提供します。このプロジェクトは当初、バンドン工科大学、マルチメディア ヌサンタラ大学、香港科技大学、インドネシア大学、DeepMind、Gojek、Prosa.AI などの大学と産業界の共同協力によって開始されました。
IndoNLG は EMNLP 2021 に承認されており、詳細は論文 https://aclanthology.org/2021.emnlp-main.699 でご覧いただけます。作業で Indo4B-Plus、IndoBART、または IndoGPT を含む IndoNLG のコンポーネントを使用している場合は、次の論文を引用してください。
@inproceedings{cahyawijaya-etal-2021-indonlg,
title = "{I}ndo{NLG}: Benchmark and Resources for Evaluating {I}ndonesian Natural Language Generation",
author = "Cahyawijaya, Samuel and Winata, Genta Indra and Wilie, Bryan and Vincentio, Karissa and Li, Xiaohong and Kuncoro, Adhiguna and Ruder, Sebastian and Lim, Zhi Yuan and Bahar, Syafri and Khodra, Masayu and Purwarianti, Ayu and Fung, Pascale",
booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021",
address = "Online and Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.emnlp-main.699",
pages = "8875--8898",
}
PR を開始する前に、必ずコントリビュート ガイドラインを確認し、メンテナーに連絡するか、問題を開いてフィードバックを収集してください。
この [リンク] からデータセットをダウンロードして解凍します。
大規模な事前トレーニング データセットへのアクセスを提供します。
IndoBART および IndoGPT の事前トレーニング済み言語モデルを提供します [リンク]
IndoNLGTokenizer を使用するためのツールキットを [リンク] で提供します。