Baca README en Bahasa Indonesia.
IndoNLG es una colección de recursos de generación de lenguaje natural (NLG) para bahasa indonesio con 6 tipos de tareas posteriores. Proporcionamos el código para reproducir los resultados y grandes modelos previamente entrenados ( IndoBART e IndoGPT ) entrenados con alrededor de 4 mil millones de corpus de palabras ( Indo4B-Plus ), alrededor de ~25 GB de datos de texto. Este proyecto se inició inicialmente mediante una colaboración conjunta entre universidades y la industria, como el Institut Teknologi Bandung, Universitas Multimedia Nusantara, la Universidad de Ciencia y Tecnología de Hong Kong, Universitas Indonesia, DeepMind, Gojek y Prosa.AI.
IndoNLG ha sido aceptado por EMNLP 2021 y puede encontrar los detalles en nuestro artículo https://aclanthology.org/2021.emnlp-main.699. Si está utilizando algún componente en IndoNLG, incluido Indo4B-Plus, IndoBART o IndoGPT en su trabajo, cite el siguiente documento:
@inproceedings{cahyawijaya-etal-2021-indonlg,
title = "{I}ndo{NLG}: Benchmark and Resources for Evaluating {I}ndonesian Natural Language Generation",
author = "Cahyawijaya, Samuel and Winata, Genta Indra and Wilie, Bryan and Vincentio, Karissa and Li, Xiaohong and Kuncoro, Adhiguna and Ruder, Sebastian and Lim, Zhi Yuan and Bahar, Syafri and Khodra, Masayu and Purwarianti, Ayu and Fung, Pascale",
booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021",
address = "Online and Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.emnlp-main.699",
pages = "8875--8898",
}
Asegúrese de consultar las pautas de contribución y comuníquese con los mantenedores o abra un problema para recopilar comentarios antes de comenzar su PR.
Descargue y descomprima el conjunto de datos de este [Enlace]
Proporcionamos acceso a nuestro gran conjunto de datos de preentrenamiento.
Proporcionamos el modelo de lenguaje preentrenado IndoBART e IndoGPT [Enlace]
Proporcionamos el kit de herramientas para utilizar IndoNLGTokenizer en [Enlace]