Baca README está na Bahasa Indonésia.
IndoNLG é uma coleção de recursos de geração de linguagem natural (NLG) para Bahasa Indonesia com 6 tipos de tarefas posteriores. Fornecemos o código para reproduzir os resultados e grandes modelos pré-treinados ( IndoBART e IndoGPT ) treinados com corpus de cerca de 4 bilhões de palavras ( Indo4B-Plus ), cerca de ~25 GB de dados de texto. Este projeto foi inicialmente iniciado por uma colaboração conjunta entre universidades e indústria, como Institut Teknologi Bandung, Universitas Multimedia Nusantara, Universidade de Ciência e Tecnologia de Hong Kong, Universitas Indonesia, DeepMind, Gojek e Prosa.AI.
IndoNLG foi aceito pelo EMNLP 2021 e você pode encontrar os detalhes em nosso artigo https://aclanthology.org/2021.emnlp-main.699. Se você estiver usando qualquer componente no IndoNLG, incluindo Indo4B-Plus, IndoBART ou IndoGPT em seu trabalho, cite o seguinte artigo:
@inproceedings{cahyawijaya-etal-2021-indonlg,
title = "{I}ndo{NLG}: Benchmark and Resources for Evaluating {I}ndonesian Natural Language Generation",
author = "Cahyawijaya, Samuel and Winata, Genta Indra and Wilie, Bryan and Vincentio, Karissa and Li, Xiaohong and Kuncoro, Adhiguna and Ruder, Sebastian and Lim, Zhi Yuan and Bahar, Syafri and Khodra, Masayu and Purwarianti, Ayu and Fung, Pascale",
booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021",
address = "Online and Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.emnlp-main.699",
pages = "8875--8898",
}
Certifique-se de verificar as diretrizes de contribuição e entre em contato com os mantenedores ou abra um problema para coletar feedbacks antes de iniciar seu PR.
Baixe e descompacte o conjunto de dados deste [Link]
Fornecemos acesso ao nosso grande conjunto de dados de pré-treinamento.
Fornecemos modelo de linguagem pré-treinado IndoBART e IndoGPT [Link]
Fornecemos o kit de ferramentas para usar o IndoNLGTokenizer em [Link]