Baca README ini dalam Bahasa Indonesia.
IndoNLG عبارة عن مجموعة من موارد إنشاء اللغات الطبيعية (NLG) للغة البهاسا الإندونيسية مع 6 أنواع من المهام النهائية. نحن نقدم التعليمات البرمجية لإعادة إنتاج النتائج والنماذج الكبيرة المدربة مسبقًا ( IndoBART و IndoGPT ) التي تم تدريبها بحوالي 4 مليار كلمة ( Indo4B-Plus )، وحوالي 25 جيجابايت من البيانات النصية. بدأ هذا المشروع في البداية من خلال التعاون المشترك بين الجامعات والصناعة، مثل معهد التكنولوجيا في باندونغ، وجامعة الوسائط المتعددة نوسانتارا، وجامعة هونغ كونغ للعلوم والتكنولوجيا، وجامعة إندونيسيا، وديب مايند، وغوجيك، وبروسا.إيه آي.
تم قبول IndoNLG من قبل EMNLP 2021 ويمكنك العثور على التفاصيل في ورقتنا https://aclanthology.org/2021.emnlp-main.699. إذا كنت تستخدم أي مكون في IndoNLG بما في ذلك Indo4B-Plus أو IndoBART أو IndoGPT في عملك، فيرجى الاستشهاد بالمقالة التالية:
@inproceedings{cahyawijaya-etal-2021-indonlg,
title = "{I}ndo{NLG}: Benchmark and Resources for Evaluating {I}ndonesian Natural Language Generation",
author = "Cahyawijaya, Samuel and Winata, Genta Indra and Wilie, Bryan and Vincentio, Karissa and Li, Xiaohong and Kuncoro, Adhiguna and Ruder, Sebastian and Lim, Zhi Yuan and Bahar, Syafri and Khodra, Masayu and Purwarianti, Ayu and Fung, Pascale",
booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021",
address = "Online and Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.emnlp-main.699",
pages = "8875--8898",
}
تأكد من مراجعة إرشادات المساهمة واتصل بالمشرفين أو افتح مشكلة لجمع التعليقات قبل بدء العلاقات العامة الخاصة بك.
قم بتنزيل وفك ضغط مجموعة البيانات من هذا [الرابط]
نحن نوفر إمكانية الوصول إلى مجموعة البيانات الكبيرة الخاصة بالتدريب المسبق.
نحن نقدم نموذج اللغة المدرب مسبقًا IndoBART وIndoGPT [الرابط]
نحن نقدم مجموعة الأدوات لاستخدام IndoNLGTokenizer في [الرابط]