indonlgダウンロード - indonlgソースコードのダウンロード

indonlg

その他のソースコード

1.0.0

ダウンロード

インドNLG

Baca README インドネシア語。

️ 2024 年 11 月 16 日更新: IndoNLG のデータセットと fasttext モデルへのリンクを更新しました。

IndoNLG は、6 種類の下流タスクを備えたインドネシア語用の自然言語生成 (NLG) リソースのコレクションです。結果を再現するコードと、約 40 億単語のコーパス ( Indo4B-Plus )、約 25 GB のテキストデータでトレーニングされた大規模な事前トレーニングモデル ( IndoBARTおよびIndoGPT ) を提供します。このプロジェクトは当初、バンドン工科大学、マルチメディアヌサンタラ大学、香港科技大学、インドネシア大学、DeepMind、Gojek、Prosa.AI などの大学と産業界の共同協力によって開始されました。

研究論文

IndoNLG は EMNLP 2021 に承認されており、詳細は論文 https://aclanthology.org/2021.emnlp-main.699 でご覧いただけます。作業で Indo4B-Plus、IndoBART、または IndoGPT を含む IndoNLG のコンポーネントを使用している場合は、次の論文を引用してください。

 @inproceedings{cahyawijaya-etal-2021-indonlg,
    title = "{I}ndo{NLG}: Benchmark and Resources for Evaluating {I}ndonesian Natural Language Generation",
    author = "Cahyawijaya, Samuel and Winata, Genta Indra and Wilie, Bryan and Vincentio, Karissa and Li, Xiaohong and Kuncoro, Adhiguna and Ruder, Sebastian and Lim, Zhi Yuan and Bahar, Syafri and Khodra, Masayu and Purwarianti, Ayu and Fung, Pascale",
    booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021",
    address = "Online and Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.emnlp-main.699",
    pages = "8875--8898",
}

例

IndoBART モデルをロードし、機械翻訳タスクでモデルを微調整する例を提供します。
次のリンクで例を確認してください

IndoNLG に貢献するにはどうすればよいですか?

PR を開始する前に、必ず投稿ガイドラインを確認し、メンテナーに連絡するか、問題を開いてフィードバックを収集してください。

IndoNLG ダウンストリームタスク

この [リンク] からデータセットをダウンロードして解凍します。

Indo4B-Plus データセット

大規模な事前トレーニングデータセットへのアクセスを提供します。

Indo4B-Plus データセットアップスケール (非圧縮で最大 25 GB、圧縮で 9.4 GB) [リンク]

IndoBART モデルと IndoGPT モデル

IndoBART および IndoGPT の事前トレーニング済み言語モデルを提供しています [リンク]

インドバート [リンク]
IndoBART-v2 [リンク]
IndoGPT [リンク]

インドベンチマークツールキット

IndoNLGTokenizer を使用するためのツールキットを [リンク] で提供します。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2024-12-03
サイズ 3.15MB
から Github

indonlg

インドNLG

研究論文

例

IndoNLG に貢献するにはどうすればよいですか?

IndoNLG ダウンストリームタスク

Indo4B-Plus データセット

IndoBART モデルと IndoGPT モデル

インドベンチマークツールキット

waymo open dataset

SmartTube

Sunamu

MySchedule.py

viptools for eslam

VITAident

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind

indonlg

インドNLG

研究論文

例

IndoNLG に貢献するにはどうすればよいですか?

IndoNLG ダウンストリーム タスク

Indo4B-Plus データセット

IndoBART モデルと IndoGPT モデル

インドベンチマーク ツールキット

IndoNLG ダウンストリームタスク

インドベンチマークツールキット