Baca README ini dalam Bahasa Indonesia.
IndoNLG adalah kumpulan sumber daya Natural Language Generation (NLG) untuk Bahasa Indonesia dengan 6 jenis tugas hilir. Kami menyediakan kode untuk mereproduksi hasil dan model besar yang telah dilatih sebelumnya ( IndoBART dan IndoGPT ) yang dilatih dengan sekitar 4 miliar korpus kata ( Indo4B-Plus ), sekitar ~25 GB data teks. Proyek ini awalnya dimulai oleh kolaborasi antara universitas dan industri, seperti Institut Teknologi Bandung, Universitas Multimedia Nusantara, The Hong Kong University of Science and Technology, Universitas Indonesia, DeepMind, Gojek, dan Prosa.AI.
IndoNLG telah diterima oleh EMNLP 2021 dan Anda dapat menemukan detailnya di makalah kami https://aclanthology.org/2021.emnlp-main.699. Jika Anda menggunakan komponen apa pun di IndoNLG termasuk Indo4B-Plus, IndoBART, atau IndoGPT dalam pekerjaan Anda, harap kutip makalah berikut:
@inproceedings{cahyawijaya-etal-2021-indonlg,
title = "{I}ndo{NLG}: Benchmark and Resources for Evaluating {I}ndonesian Natural Language Generation",
author = "Cahyawijaya, Samuel and Winata, Genta Indra and Wilie, Bryan and Vincentio, Karissa and Li, Xiaohong and Kuncoro, Adhiguna and Ruder, Sebastian and Lim, Zhi Yuan and Bahar, Syafri and Khodra, Masayu and Purwarianti, Ayu and Fung, Pascale",
booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021",
address = "Online and Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.emnlp-main.699",
pages = "8875--8898",
}
Pastikan untuk memeriksa pedoman kontribusi dan menghubungi pengelola atau membuka terbitan untuk mengumpulkan masukan sebelum memulai PR Anda.
Unduh dan unzip kumpulan data dari [Tautan] ini
Kami menyediakan akses ke kumpulan data pra-pelatihan kami yang besar.
Kami menyediakan Model Bahasa Pra-latihan IndoBART dan IndoGPT [Link]
Toolkit untuk menggunakan IndoNLGTokenizer kami sediakan di [Link]