Lesen Sie die README-Datei von Bahasa Indonesia.
IndoNLG ist eine Sammlung von NLG-Ressourcen (Natural Language Generation) für Bahasa Indonesia mit 6 Arten nachgelagerter Aufgaben. Wir stellen den Code zur Reproduktion der Ergebnisse und große vorab trainierte Modelle ( IndoBART und IndoGPT ) bereit, die mit rund 4 Milliarden Wortkorpus ( Indo4B-Plus ) und rund ~25 GB Textdaten trainiert wurden. Dieses Projekt wurde ursprünglich durch eine gemeinsame Zusammenarbeit zwischen Universitäten und der Industrie ins Leben gerufen, darunter Institut Teknologi Bandung, Universitas Multimedia Nusantara, The Hong Kong University of Science and Technology, Universitas Indonesia, DeepMind, Gojek und Prosa.AI.
IndoNLG wurde von EMNLP 2021 akzeptiert und Sie können die Details in unserem Papier https://aclanthology.org/2021.emnlp-main.699 finden. Wenn Sie in Ihrer Arbeit eine Komponente von IndoNLG verwenden, einschließlich Indo4B-Plus, IndoBART oder IndoGPT, zitieren Sie bitte das folgende Dokument:
@inproceedings{cahyawijaya-etal-2021-indonlg,
title = "{I}ndo{NLG}: Benchmark and Resources for Evaluating {I}ndonesian Natural Language Generation",
author = "Cahyawijaya, Samuel and Winata, Genta Indra and Wilie, Bryan and Vincentio, Karissa and Li, Xiaohong and Kuncoro, Adhiguna and Ruder, Sebastian and Lim, Zhi Yuan and Bahar, Syafri and Khodra, Masayu and Purwarianti, Ayu and Fung, Pascale",
booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021",
address = "Online and Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.emnlp-main.699",
pages = "8875--8898",
}
Lesen Sie unbedingt die Beitragsrichtlinien und kontaktieren Sie die Betreuer oder eröffnen Sie ein Problem, um Feedback zu sammeln, bevor Sie mit Ihrer PR beginnen.
Laden Sie den Datensatz von diesem [Link] herunter und entpacken Sie ihn.
Wir bieten Zugriff auf unseren großen Pretraining-Datensatz.
Wir bieten vorab trainierte IndoBART- und IndoGPT-Sprachmodelle an [Link]
Wir stellen das Toolkit zur Verwendung des IndoNLGTokenizers in [Link] zur Verfügung.