Baca README en bahasa indonésien.
IndoNLG est une collection de ressources de génération de langage naturel (NLG) pour le bahasa indonésien avec 6 types de tâches en aval. Nous fournissons le code pour reproduire les résultats et de grands modèles pré-entraînés ( IndoBART et IndoGPT ) entraînés avec un corpus d'environ 4 milliards de mots ( Indo4B-Plus ), environ ~ 25 Go de données texte. Ce projet a été initialement lancé par une collaboration entre des universités et des entreprises, telles que l'Institut Teknologi Bandung, Universitas Multimedia Nusantara, l'Université des sciences et technologies de Hong Kong, Universitas Indonesia, DeepMind, Gojek et Prosa.AI.
IndoNLG a été accepté par EMNLP 2021 et vous pouvez trouver les détails dans notre article https://aclanthology.org/2021.emnlp-main.699. Si vous utilisez un composant sur IndoNLG, notamment Indo4B-Plus, IndoBART ou IndoGPT dans votre travail, veuillez citer l'article suivant :
@inproceedings{cahyawijaya-etal-2021-indonlg,
title = "{I}ndo{NLG}: Benchmark and Resources for Evaluating {I}ndonesian Natural Language Generation",
author = "Cahyawijaya, Samuel and Winata, Genta Indra and Wilie, Bryan and Vincentio, Karissa and Li, Xiaohong and Kuncoro, Adhiguna and Ruder, Sebastian and Lim, Zhi Yuan and Bahar, Syafri and Khodra, Masayu and Purwarianti, Ayu and Fung, Pascale",
booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021",
address = "Online and Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.emnlp-main.699",
pages = "8875--8898",
}
Assurez-vous de vérifier les directives de contribution et de contacter les responsables ou d'ouvrir un problème pour recueillir des commentaires avant de commencer votre PR.
Téléchargez et décompressez l'ensemble de données à partir de ce [Lien]
Nous fournissons l'accès à notre vaste ensemble de données de pré-formation.
Nous fournissons le modèle de langage pré-entraîné IndoBART et IndoGPT [Lien]
Nous fournissons la boîte à outils pour utiliser l'IndoNLGTokenizer dans [Link]