Baca README ini dalam Bahasa Indonesia.
IndoNLG 는 6가지 종류의 다운스트림 작업이 포함된 인도네시아어용 자연어 생성(NLG) 리소스 모음입니다. 우리는 약 40억 단어 코퍼스( Indo4B-Plus ), 약 25GB의 텍스트 데이터로 훈련된 결과와 대규모 사전 훈련된 모델( IndoBART 및 IndoGPT )을 재현하기 위한 코드를 제공합니다. 이 프로젝트는 처음에는 Institut Teknologi Bandung, Universitas Multimedia Nusantara, The Hong Kong University of Science and Technology, Universitas Indonesia, DeepMind, Gojek, Prosa.AI 등 대학과 업계 간의 공동 협력으로 시작되었습니다.
IndoNLG는 EMNLP 2021에서 승인되었으며 자세한 내용은 당사 논문 https://aclanthology.org/2021.emnlp-main.699에서 확인할 수 있습니다. Indo4B-Plus, IndoBART 또는 IndoGPT를 포함하여 IndoNLG의 구성 요소를 작업에 사용하는 경우 다음 문서를 인용하십시오.
@inproceedings{cahyawijaya-etal-2021-indonlg,
title = "{I}ndo{NLG}: Benchmark and Resources for Evaluating {I}ndonesian Natural Language Generation",
author = "Cahyawijaya, Samuel and Winata, Genta Indra and Wilie, Bryan and Vincentio, Karissa and Li, Xiaohong and Kuncoro, Adhiguna and Ruder, Sebastian and Lim, Zhi Yuan and Bahar, Syafri and Khodra, Masayu and Purwarianti, Ayu and Fung, Pascale",
booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021",
address = "Online and Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.emnlp-main.699",
pages = "8875--8898",
}
PR을 시작하기 전에 반드시 기여 지침을 확인하고 관리자에게 연락하거나 이슈를 열어 피드백을 수집하세요.
이 [링크]에서 데이터 세트를 다운로드하고 압축을 푼다.
우리는 대규모 사전 훈련 데이터 세트에 대한 액세스를 제공합니다.
IndoBART 및 IndoGPT 사전 학습된 언어 모델을 제공합니다. [링크]
[링크]에서 IndoNLGTokenizer를 사용하기 위한 툴킷을 제공합니다.