Ознакомьтесь с README в Индонезии.
IndoNLG — это набор ресурсов по генерации естественного языка (NLG) для Bahasa Indonesia с 6 видами последующих задач. Мы предоставляем код для воспроизведения результатов и большие предварительно обученные модели ( IndoBART и IndoGPT ), обученные с использованием примерно 4 миллиардов слов ( Indo4B-Plus ), около 25 ГБ текстовых данных. Первоначально этот проект был начат в результате совместного сотрудничества университетов и промышленности, таких как Institut Teknologi Bandung, Universitas Multimedia Nusantara, Гонконгский университет науки и технологий, Universitas Indonesia, DeepMind, Gojek и Prosa.AI.
IndoNLG был принят EMNLP 2021, подробности можно найти в нашей статье https://aclanthology.org/2021.emnlp-main.699. Если вы используете в своей работе какой-либо компонент IndoNLG, включая Indo4B-Plus, IndoBART или IndoGPT, цитируйте следующий документ:
@inproceedings{cahyawijaya-etal-2021-indonlg,
title = "{I}ndo{NLG}: Benchmark and Resources for Evaluating {I}ndonesian Natural Language Generation",
author = "Cahyawijaya, Samuel and Winata, Genta Indra and Wilie, Bryan and Vincentio, Karissa and Li, Xiaohong and Kuncoro, Adhiguna and Ruder, Sebastian and Lim, Zhi Yuan and Bahar, Syafri and Khodra, Masayu and Purwarianti, Ayu and Fung, Pascale",
booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021",
address = "Online and Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.emnlp-main.699",
pages = "8875--8898",
}
Обязательно ознакомьтесь с рекомендациями по участию и свяжитесь с сопровождающими или откройте вопрос, чтобы собрать отзывы, прежде чем начинать пиар.
Загрузите и разархивируйте набор данных из этого [Ссылка]
Мы предоставляем доступ к нашему большому набору данных для предварительного обучения.
Мы предоставляем предварительно обученную языковую модель IndoBART и IndoGPT [Ссылка]
Мы предоставляем набор инструментов для использования IndoNLGTokenizer в [Ссылка]