indonlg Unduh - indonlg Unduh kode sumber

indonlg

Kode sumber lainnya

1.0.0

Unduh

IndoNLG

Baca README ini dalam Bahasa Indonesia.

️ Update 16/11/2024: Kami update link dataset dan model fasttext di IndoNLG!

IndoNLG adalah kumpulan sumber daya Natural Language Generation (NLG) untuk Bahasa Indonesia dengan 6 jenis tugas hilir. Kami menyediakan kode untuk mereproduksi hasil dan model besar yang telah dilatih sebelumnya ( IndoBART dan IndoGPT ) yang dilatih dengan sekitar 4 miliar korpus kata ( Indo4B-Plus ), sekitar ~25 GB data teks. Proyek ini awalnya dimulai oleh kolaborasi antara universitas dan industri, seperti Institut Teknologi Bandung, Universitas Multimedia Nusantara, The Hong Kong University of Science and Technology, Universitas Indonesia, DeepMind, Gojek, dan Prosa.AI.

Makalah Penelitian

IndoNLG telah diterima oleh EMNLP 2021 dan Anda dapat menemukan detailnya di makalah kami https://aclanthology.org/2021.emnlp-main.699. Jika Anda menggunakan komponen apa pun di IndoNLG termasuk Indo4B-Plus, IndoBART, atau IndoGPT dalam pekerjaan Anda, harap kutip makalah berikut:

 @inproceedings{cahyawijaya-etal-2021-indonlg,
    title = "{I}ndo{NLG}: Benchmark and Resources for Evaluating {I}ndonesian Natural Language Generation",
    author = "Cahyawijaya, Samuel and Winata, Genta Indra and Wilie, Bryan and Vincentio, Karissa and Li, Xiaohong and Kuncoro, Adhiguna and Ruder, Sebastian and Lim, Zhi Yuan and Bahar, Syafri and Khodra, Masayu and Purwarianti, Ayu and Fung, Pascale",
    booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021",
    address = "Online and Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.emnlp-main.699",
    pages = "8875--8898",
}