Awesome-llms-datasets
- สรุปชุดข้อมูลที่เป็นตัวแทน LLMS ที่มีอยู่ในห้ามิติ: Corpora การฝึกอบรมก่อน, ชุดข้อมูลคำสั่งการปรับแต่ง, ชุดข้อมูลการตั้งค่า, ชุดข้อมูลการประเมินผลและชุดข้อมูล NLP แบบดั้งเดิม (อัปเดตปกติ)
- มีการเพิ่มส่วนชุดข้อมูลใหม่: ชุดข้อมูลภาษาขนาดใหญ่หลายรูปแบบ (MLLMS) ชุดข้อมูลชุดข้อมูล Augmented Generation (RAG) (อัปเดตค่อยๆ)
กระดาษ
กระดาษ "ชุดข้อมูลสำหรับแบบจำลองภาษาขนาดใหญ่: การสำรวจที่ครอบคลุม" ได้รับการปล่อยตัว (2024/2)
เชิงนามธรรม:
บทความนี้เริ่มต้นในการสำรวจในชุดข้อมูลรูปแบบภาษาขนาดใหญ่ (LLM) ซึ่งมีบทบาทสำคัญในความก้าวหน้าที่น่าทึ่งของ LLMS ชุดข้อมูลทำหน้าที่เป็นโครงสร้างพื้นฐานพื้นฐานที่คล้ายคลึงกับระบบรากที่ค้ำจุนและบำรุงรักษาการพัฒนาของ LLM ดังนั้นการตรวจสอบชุดข้อมูลเหล่านี้จึงเป็นหัวข้อสำคัญในการวิจัย เพื่อที่จะจัดการกับการขาดภาพรวมที่ครอบคลุมและการวิเคราะห์อย่างละเอียดของชุดข้อมูล LLM และเพื่อให้ได้ข้อมูลเชิงลึกเกี่ยวกับสถานะปัจจุบันและแนวโน้มในอนาคตการสำรวจนี้รวมและจัดหมวดหมู่พื้นฐานพื้นฐานของชุดข้อมูล LLM จากห้ามุมมอง: (1) ก่อน การฝึกอบรม Corpora; (2) ชุดข้อมูลการปรับแต่งการเรียนการสอน (3) ชุดข้อมูลการตั้งค่า (4) ชุดข้อมูลการประเมินผล (5) ชุดข้อมูลการประมวลผลภาษาธรรมชาติแบบดั้งเดิม (NLP) การสำรวจแสดงให้เห็นถึงความท้าทายที่เกิดขึ้นและชี้ให้เห็นถึงช่องทางที่เป็นไปได้สำหรับการสอบสวนในอนาคต นอกจากนี้ยังมีการตรวจสอบที่ครอบคลุมเกี่ยวกับทรัพยากรชุดข้อมูลที่มีอยู่รวมถึงสถิติจากชุดข้อมูล 444 ชุดครอบคลุม 8 หมวดหมู่ภาษาและครอบคลุม 32 โดเมน ข้อมูลจาก 20 มิติรวมอยู่ในสถิติชุดข้อมูล ขนาดข้อมูลทั้งหมดที่สำรวจเกิน 774.5 TB สำหรับการฝึกอบรมก่อนการฝึกอบรมและอินสแตนซ์ 700m สำหรับชุดข้อมูลอื่น ๆ เรามุ่งมั่นที่จะนำเสนอภูมิทัศน์ทั้งหมดของชุดข้อมูลข้อความ LLM ซึ่งทำหน้าที่เป็นข้อมูลอ้างอิงที่ครอบคลุมสำหรับนักวิจัยในสาขานี้และมีส่วนร่วมในการศึกษาในอนาคต

รูปที่ 1 สถาปัตยกรรมโดยรวมของการสำรวจ ซูมเข้าเพื่อดูที่ดีขึ้น
โมดูลข้อมูลชุดข้อมูล
ต่อไปนี้เป็นบทสรุปของโมดูลข้อมูลชุดข้อมูล
- ชื่อคอร์ปัส/ชุดข้อมูล
- ผู้จัดพิมพ์
- เวลาปล่อยเวลา
- “ x” หมายถึงเดือนที่ไม่รู้จัก
- ขนาด
- สาธารณะหรือไม่
- “ ทั้งหมด” หมายถึงโอเพ่นซอร์สเต็ม;
- “ บางส่วน” หมายถึงโอเพ่นซอร์สบางส่วน
- “ ไม่” หมายถึงไม่ใช่โอเพนซอร์ส
- ใบอนุญาต
- ภาษา
- “ en” หมายถึงภาษาอังกฤษ
- “ ZH” หมายถึงภาษาจีน
- “ AR” หมายถึงภาษาอาหรับ
- “ ES” หมายถึงภาษาสเปน
- “ ru” หมายถึงรัสเซีย;
- “ เดอ” หมายถึงภาษาเยอรมัน
- “ KO” หมายถึงเกาหลี
- “ LT” หมายถึงลิทัวเนีย;
- “ FA” หมายถึงเปอร์เซีย/ฟาร์ซี;
- “ PL” หมายถึงภาษาการเขียนโปรแกรม
- “ Multi” ระบุหลายภาษาและจำนวนในวงเล็บระบุจำนวนภาษาที่รวมอยู่ด้วย
- วิธีการก่อสร้าง
- “ HG” หมายถึงชุดข้อมูล/ชุดข้อมูลที่มนุษย์สร้างขึ้น
- “ MC” หมายถึงชุดข้อมูลที่สร้างขึ้นในคลังข้อมูล/ชุดข้อมูล
- “ CI” หมายถึงการรวบรวมและปรับปรุงชุดข้อมูล/ชุดข้อมูลที่มีอยู่
- หมวดหมู่
- แหล่งที่มา
- โดเมน
- หมวดหมู่คำสั่ง
- วิธีการประเมินผล
- “ VO” หมายถึงการลงคะแนน;
- “ ดังนั้น” บ่งบอกถึงการเรียงลำดับ;
- “ SC” ระบุคะแนน;
- “ -H” ระบุว่าดำเนินการโดยมนุษย์;
- “ -m” ระบุว่าดำเนินการโดยแบบจำลอง
- ประเภทคำถาม
- “ SQ” หมายถึงคำถามส่วนตัว
- “ OQ” หมายถึงคำถามที่มีวัตถุประสงค์
- “ Multi” หมายถึงประเภทคำถามหลายประเภท
- วิธีการประเมินผล
- “ CE” ระบุการประเมินรหัส
- “ เขา” บ่งบอกถึงการประเมินผลของมนุษย์
- “ ฉัน” หมายถึงการประเมินแบบจำลอง
- จุดสนใจ
- จำนวนหมวดหมู่การประเมิน/หมวดหมู่ย่อย
- หมวดการประเมินผล
- จำนวนหมวดหมู่เอนทิตี (งาน ner)
- จำนวนหมวดหมู่ความสัมพันธ์ (งาน RE)
การเปลี่ยนแปลง
- (2024/01/17) สร้างพื้นที่เก็บข้อมูลชุด ข้อมูลที่ยอดเยี่ยม-llms-datasets
- (2024/02/02) แก้ไขข้อมูลสำหรับชุดข้อมูลบางชุด เพิ่ม Dolma (การฝึกอบรมก่อนการฝึกอบรมทั่วไป Corpora การฝึกอบรมทั่วไป | หลายหมวดหมู่)
- (2024/02/15) เพิ่ม คอลเลกชัน AYA (ชุดข้อมูลการปรับแต่งการเรียนการสอน | ชุดข้อมูลการปรับแต่งการปรับแต่งทั่วไป | HG & CI & MC); ชุดข้อมูล AYA (ชุดข้อมูลการปรับแต่งการเรียนการสอน | ชุดข้อมูลการปรับแต่งการปรับแต่งทั่วไป | HG)
- (2024/02/22) เพิ่ม OpenMathInstruct-1 (ชุดข้อมูลการปรับแต่งการเรียนการสอน | ชุดข้อมูลการปรับแต่งเฉพาะโดเมนการปรับแต่งการปรับแต่ง | คณิตศาสตร์); Finben (ชุดข้อมูลการประเมินผล | การเงิน)
- (2024/04/05)
- เพิ่มส่วนชุดข้อมูลใหม่: (1) ชุดข้อมูลภาษาขนาดใหญ่หลายรูปแบบ (MLLMS) (2) ชุดข้อมูล Augmented Generation (RAG) ดึงข้อมูล
- เพิ่ม MMRS-1M (ชุดข้อมูล MLLMS | ชุดข้อมูลการปรับแต่งคำสั่ง); VideoChat2-IT (ชุดข้อมูล MLLMS | ชุดข้อมูลการปรับแต่งคำสั่ง); InstructDoc (ชุดข้อมูล MLLMS | ชุดข้อมูลการปรับแต่งคำสั่ง); ข้อมูล Allava-4V (ชุดข้อมูล MLLMS | ชุดข้อมูลการปรับแต่งคำสั่ง); MVBENCH (ชุดข้อมูล MLLMS | ชุดข้อมูลการประเมินผล); Olympiadbench (ชุดข้อมูล MLLMS | ชุดข้อมูลการประเมินผล); MMMU (ชุดข้อมูล MLLMS | ชุดข้อมูลการประเมินผล)
- เพิ่ม ชุดเบนช์เบนช์ (ชุดข้อมูลการประเมินผล | แพลตฟอร์มการประเมินผล); OpenLLM LEADERBOARD (ชุดข้อมูลการประเมินผล | แพลตฟอร์มการประเมินผล); OpenCompass (ชุดข้อมูลการประเมินผล | แพลตฟอร์มการประเมินผล); MTEB LEADERBOARD (ชุดข้อมูลการประเมินผล | แพลตฟอร์มการประเมินผล); C-MTEB LEADERBOARD (ชุดข้อมูลการประเมินผล | แพลตฟอร์มการประเมินผล)
- เพิ่ม NAH (Needle-in-A-Haystack) (ชุดข้อมูลการประเมินผล | ข้อความยาว); Tooleyes (ชุดข้อมูลการประเมินผล | เครื่องมือ); Uhgeval (ชุดข้อมูลการประเมินผล | ข้อเท็จจริง); Clongeval (ชุดข้อมูลการประเมินผล | ข้อความยาว)
- เพิ่ม MathPile (การฝึกอบรมก่อนการฝึกอบรมเฉพาะด้านการฝึกอบรมก่อนการฝึกอบรม Corpora | คณิตศาสตร์); Wanjuan-CC (การฝึกอบรมล่วงหน้า Corpora | Corpora ก่อนการฝึกอบรมทั่วไป | หน้าเว็บ)
- เพิ่ม IEPILE (ชุดข้อมูลการปรับแต่งคำสั่ง | ชุดข้อมูลการปรับแต่งการปรับแต่งทั่วไป | CI); Instructie (ชุดข้อมูลการปรับแต่งการเรียนการสอน | ชุดข้อมูลการปรับแต่งการปรับแต่งทั่วไป | HG)
- เพิ่ม crud-rag (ชุดข้อมูล RAG); Wikieval (ชุดข้อมูล RAG); RGB (ชุดข้อมูล RAG); RAG-Instruct-Benchmark-Tester (ชุดข้อมูล RAG); ARES (ชุดข้อมูล RAG)
- (2024/04/06)
- เพิ่ม GPQA (ชุดข้อมูลการประเมินผล | หัวเรื่อง); MGSM (ชุดข้อมูลการประเมินผล | หลายภาษา); Halueval-wild (ชุดข้อมูลการประเมินผล | ข้อเท็จจริง); CMATH (ชุดข้อมูลการประเมินผล | หัวเรื่อง); FINEMATH (ชุดข้อมูลการประเมินผล | หัวเรื่อง); QA เรียลไทม์ (ชุดข้อมูลการประเมินผล | ข้อเท็จจริง); WYWEB (ชุดข้อมูลการประเมินผล | หัวเรื่อง); ChineseFactEval (ชุดข้อมูลการประเมินผล | ข้อเท็จจริง); การนับดาว (ชุดข้อมูลการประเมินผล | ข้อความยาว)
- เพิ่ม Slimpajama (การฝึกอบรมก่อนการฝึกอบรมทั่วไป Corpora การฝึกอบรมทั่วไป | หลายหมวดหมู่); MASSIVETEXT (การฝึกอบรมก่อนการฝึกอบรมทั่วไป CORPORA | หลายหมวดหมู่); MADLAD-400 (Corpora ฝึกอบรมก่อนการฝึกอบรมทั่วไป Corpora | หน้าเว็บ); Minerva (การฝึกอบรมล่วงหน้า Corpora | Corpora ก่อนการฝึกอบรมทั่วไป | หลายหมวดหมู่); Ccaligned (การฝึกอบรมล่วงหน้า Corpora | Corpora ก่อนการฝึกอบรมทั่วไป | คลังข้อมูลขนาน); Wikimatrix (การฝึกอบรมล่วงหน้า Corpora | Corpora ก่อนการฝึกอบรมทั่วไป | คลังข้อมูลขนาน); OpenWebMath (การฝึกอบรมล่วงหน้า Corpora | Corpora การฝึกอบรมเฉพาะด้านโดเมน | คณิตศาสตร์)
- เพิ่ม WebQuestions (ชุดข้อมูล NLP แบบดั้งเดิม | ตอบคำถาม | ความรู้ QA)
- เพิ่ม Alce (ชุดข้อมูล RAG)
- เพิ่ม Alphafin (ชุดข้อมูลการปรับแต่งคำสั่ง | ชุดข้อมูลการปรับแต่งเฉพาะโดเมนการปรับแต่งการปรับแต่ง | อื่น ๆ ); COIG-CQIA (ชุดข้อมูลการปรับแต่งการเรียนการสอน | ชุดข้อมูลการปรับแต่งการปรับแต่งทั่วไป | HG & CI)
- (2024/06/15)
- เพิ่ม เบาะแส (ชุดข้อมูลการประเมินผล | การแพทย์); CHC-bench (ชุดข้อมูลการประเมินผล | ทั่วไป); CIF-BENCH (ชุดข้อมูลการประเมินผล | ทั่วไป); ACLUE (ชุดข้อมูลการประเมินผล | เรื่อง); LESC (ชุดข้อมูลการประเมินผล | NLU); AlignBench (ชุดข้อมูลการประเมินผล | มัลติทาสก์); Sciknoweval (ชุดข้อมูลการประเมินผล | หัวเรื่อง)
- เพิ่ม MAP-CC (การฝึกอบรมล่วงหน้า Corpora | Corpora ก่อนการฝึกอบรมทั่วไป | หลายหมวดหมู่); Fineweb (การฝึกอบรมก่อนการฝึกอบรมทั่วไปการฝึกอบรมทั่วไป | หน้าเว็บ); CCI 2.0 (Corpora ฝึกอบรมก่อนการฝึกอบรมก่อนการฝึกอบรมทั่วไป | หน้าเว็บ)
- เพิ่ม WildChat (ชุดข้อมูลการปรับแต่งคำสั่ง | MC)
- เพิ่ม OpenHerMesPreferences (ชุดข้อมูลการตั้งค่า | เรียงลำดับ); huozi_rlhf_data (ชุดข้อมูลการตั้งค่า | โหวต); Helpsteer (ชุดข้อมูลการตั้งค่า | คะแนน); HelpSteer2 (ชุดข้อมูลการตั้งค่า | คะแนน)
- เพิ่ม MMT-BENCH (ชุดข้อมูล MLLMS | ชุดข้อมูลการประเมินผล); Moscar (ชุดข้อมูล MLLMS | Pre-Training Corpora); MM-NIAH (ชุดข้อมูล MLLMS | ชุดข้อมูลการประเมินผล)
- เพิ่ม CRAG (ชุดข้อมูล RAG)
- (2024/08/29)
- เพิ่ม GameBench (ชุดข้อมูลการประเมินผล | การใช้เหตุผล); Halludial (ชุดข้อมูลการประเมินผล | ข้อเท็จจริง); WildBench (ชุดข้อมูลการประเมินผล | ทั่วไป); DomaineVal (ชุดข้อมูลการประเมินผล | รหัส); Sysbench (ชุดข้อมูลการประเมินผล | ทั่วไป); Kobest (ชุดข้อมูลการประเมินผล | NLU); Sarcasmbench (ชุดข้อมูลการประเมินผล | NLU); C 3 Bench (ชุดข้อมูลการประเมินผล | หัวเรื่อง); TableBench (ชุดข้อมูลการประเมินผล | การใช้เหตุผล); Awablegaleval (ชุดข้อมูลการประเมินผล | กฎหมาย)
- เพิ่ม MultitRust (ชุดข้อมูล MLLMS | ชุดข้อมูลการประเมินผล); OBELISC (ชุดข้อมูล MLLMS | Pre-Training Corpora); ชุดข้อมูล Multimed (MLLMS | ชุดข้อมูลการประเมินผล)
- เพิ่ม DCLM (การฝึกอบรมก่อนการฝึกอบรมทั่วไป Corpora | เว็บเพจ)
- เพิ่ม Lithuanian-Qa-V1 (ชุดข้อมูลการปรับแต่งการเรียนการสอน | CI & MC); Reinstruct (ชุดข้อมูลการปรับแต่งการเรียนการสอน | HG & CI & MC); Kollm-converations (ชุดข้อมูลการปรับแต่งการเรียนการสอน | CI)
- (2024/09/04)
- เพิ่ม longwriter-6k (ชุดข้อมูลการปรับแต่งการเรียนการสอน | CI & MC)
- เพิ่ม Medtrinity-25M (ชุดข้อมูล MLLMS | ชุดข้อมูลการประเมินผล); MMIU (ชุดข้อมูล MLLMS | ชุดข้อมูลการประเมินผล)
- เพิ่ม Expository-Prose-V1 (การฝึกอบรมก่อนการฝึกอบรมทั่วไป Corpora การฝึกอบรมทั่วไป | หลายหมวดหมู่)
- เพิ่ม Debateqa (ชุดข้อมูลการประเมินผล | ความรู้); Needlebench (ชุดข้อมูลการประเมินผล | ข้อความยาว); Arabicmmlu (ชุดข้อมูลการประเมินผล | หัวเรื่อง); PERSIANMMLU (ชุดข้อมูลการประเมินผล | หัวเรื่อง); TMMLU+ (ชุดข้อมูลการประเมินผล | หัวเรื่อง)
- เพิ่ม Rageval (ชุดข้อมูล RAG); LFRQA (ชุดข้อมูล RAG); MultiHop-Rag (ชุดข้อมูล RAG)
- เราจะเผยแพร่ข้อมูลชุดข้อมูลในรูปแบบ CSV
สารบัญ
- Corpora ฝึกอบรมล่วงหน้า
- บริษัท ฝึกอบรมก่อนการฝึกอบรมทั่วไป
- หน้าเว็บ
- ข้อความภาษา
- หนังสือ
- สื่อการศึกษา
- รหัส
- คลังขนาน
- โซเชียลมีเดีย
- สารานุกรม
- หลายหมวดหมู่
- Corpora ก่อนการฝึกอบรมเฉพาะโดเมน
- การเงิน
- ทางการแพทย์
- คณิตศาสตร์
- อื่น
- ชุดข้อมูลการปรับแต่งการปรับแต่ง
- ชุดข้อมูลการปรับแต่งการปรับแต่งทั่วไป
- ชุดข้อมูลที่มนุษย์สร้างขึ้น (HG)
- ชุดข้อมูลที่สร้างขึ้นรุ่น (MC)
- การรวบรวมและปรับปรุงชุดข้อมูลที่มีอยู่ (CI)
- HG & CI
- HG & MC
- CI & MC
- HG & CI & MC
- ชุดข้อมูลการปรับแต่งคำสั่งเฉพาะโดเมน
- ทางการแพทย์
- รหัส
- ถูกกฎหมาย
- คณิตศาสตร์
- การศึกษา
- อื่น
- ชุดข้อมูลการตั้งค่า
- วิธีการประเมินผล
- ลงคะแนนเสียง
- เรียงลำดับ
- คะแนน
- อื่น
- ชุดข้อมูลการประเมินผล
- ทั่วไป
- การสอบ
- เรื่อง
- NLU
- การให้เหตุผล
- ความรู้
- ข้อความยาว
- เครื่องมือ
- ตัวแทน
- รหัส
- อู๊ด
- กฎ
- ทางการแพทย์
- การเงิน
- บรรทัดฐานทางสังคม
- ข้อเท็จจริง
- การประเมิน
- มัลติทาสก์
- พูดได้หลายภาษา
- อื่น
- แพลตฟอร์มการประเมินผล
- ชุดข้อมูล NLP แบบดั้งเดิม
- ตอบคำถาม
- การอ่านความเข้าใจ
- การเลือกและการตัดสิน
- การทดสอบปิดบัง
- คำตอบการสกัด
- QA ไม่ จำกัด
- QA ความรู้
- การให้เหตุผล QA
- การรับรู้ถึงข้อความที่เป็นข้อความ
- คณิตศาสตร์
- ความละเอียด coreference
- การวิเคราะห์ความเชื่อมั่น
- การจับคู่ความหมาย
- การสร้างข้อความ
- การแปลข้อความ
- การสรุปข้อความ
- การจำแนกข้อความ
- การประเมินคุณภาพข้อความ
- ข้อความเป็นรหัส
- การจดจำเอนทิตีชื่อ
- การสกัดความสัมพันธ์
- มัลติทาสก์
- ชุดข้อมูลโมเดลภาษาขนาดใหญ่หลายรูปแบบ (MLLMS)
- Corpora ฝึกอบรมล่วงหน้า
- ชุดข้อมูลการปรับแต่งการปรับแต่ง
- ชุดข้อมูลการประเมินผล
- ชุดข้อมูล Augmented Generation (RAG) ดึงข้อมูล
Corpora ฝึกอบรมล่วงหน้า
Corpora ฝึกอบรมล่วงหน้าเป็นคอลเลกชันขนาดใหญ่ของข้อมูลข้อความที่ใช้ในระหว่างกระบวนการฝึกอบรมล่วงหน้าของ LLM
บริษัท ฝึกอบรมก่อนการฝึกอบรมทั่วไป
Corpora การฝึกอบรมก่อนการฝึกอบรมทั่วไปเป็นชุดข้อมูลขนาดใหญ่ที่ประกอบด้วยข้อความที่กว้างขวางจากโดเมนและแหล่งข้อมูลที่หลากหลาย ลักษณะหลักของพวกเขาคือเนื้อหาข้อความไม่ได้ จำกัด อยู่ในโดเมนเดียวทำให้พวกเขาเหมาะสมกว่าสำหรับการฝึกอบรมแบบจำลองพื้นฐานทั่วไป Corpora ถูกจัดประเภทตามหมวดหมู่ข้อมูล
รูปแบบข้อมูลชุดข้อมูล:
- Dataset name Release Time | Public or Not | Language | Construction Method | Paper | Github | Dataset | Website
- Publisher:
- Size:
- License:
- Source:
หน้าเว็บ
CC-Stories 2018-6 | ไม่ใช่ | en | CI | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Google Brain
- ขนาด: 31 GB
- ใบอนุญาต: -
- ที่มา: การรวบรวมข้อมูลทั่วไป
CC100 2020-7 | ทั้งหมด | Multi (100) | CI | กระดาษ | ชุดข้อมูล
- สำนักพิมพ์: Facebook AI
- ขนาด: 2.5 TB
- ใบอนุญาต: ข้อกำหนดการใช้งานทั่วไปการใช้งาน
- ที่มา: การรวบรวมข้อมูลทั่วไป
Cluecorpus2020 2020-3 | ทั้งหมด | ZH | CI | กระดาษ | ชุดข้อมูล
- สำนักพิมพ์: องค์กรเบาะแส
- ขนาด: 100 GB
- ใบอนุญาต: MIT
- ที่มา: การรวบรวมข้อมูลทั่วไป
รวบรวมข้อมูลทั่วไป 2007-X | ทั้งหมด | มัลติ | HG | เว็บไซต์
- สำนักพิมพ์: การรวบรวมข้อมูลทั่วไป
- ขนาด: -
- ใบอนุญาต: ข้อกำหนดการใช้งานทั่วไปการใช้งาน
- ที่มา: ข้อมูลการรวบรวมข้อมูลเว็บ
Culturax 2023-9 | ทั้งหมด | Multi (167) | CI | กระดาษ | ชุดข้อมูล
- สำนักพิมพ์: มหาวิทยาลัยโอเรกอนและคณะ
- ขนาด: 27 TB
- ใบอนุญาต: ใบอนุญาต MC4 และออสการ์
- ที่มา: MC4, Oscar
C4 2019-10 | ทั้งหมด | en | CI | กระดาษ | ชุดข้อมูล
- สำนักพิมพ์: Google Research
- ขนาด: 12.68 TB
- ใบอนุญาต: ODC-by & เงื่อนไขการใช้งานทั่วไปการใช้งาน
- ที่มา: การรวบรวมข้อมูลทั่วไป
MC4 2021-6 | ทั้งหมด | Multi (108) | CI | กระดาษ | ชุดข้อมูล
- สำนักพิมพ์: Google Research
- ขนาด: 251 GB
- ใบอนุญาต: ODC-by & เงื่อนไขการใช้งานทั่วไปการใช้งาน
- ที่มา: การรวบรวมข้อมูลทั่วไป
ออสการ์ 22.01 2022-1 | ทั้งหมด | Multi (151) | CI | กระดาษ | ชุดข้อมูล เว็บไซต์
- สำนักพิมพ์: inria
- ขนาด: 8.41 TB
- ใบอนุญาต: CC0
- ที่มา: การรวบรวมข้อมูลทั่วไป
RealNews 2019-5 | ทั้งหมด | en | CI | กระดาษ | คนอื่น ๆ
- สำนักพิมพ์: มหาวิทยาลัยวอชิงตันและคณะ
- ขนาด: 120 GB
- ใบอนุญาต: Apache-2.0
- ที่มา: การรวบรวมข้อมูลทั่วไป
Redpajama-V2 2023-10 | ทั้งหมด | Multi (5) | CI | GitHub | ชุดข้อมูล เว็บไซต์
- สำนักพิมพ์: คอมพิวเตอร์ร่วมกัน
- ขนาด: 30.4 โทเค็น
- ใบอนุญาต: ข้อกำหนดการใช้งานทั่วไปการใช้งาน
- ที่มา: การรวบรวมข้อมูลทั่วไป, C4, ฯลฯ
RefinedWeb 2023-6 | บางส่วน en | CI | กระดาษ | ชุดข้อมูล
- สำนักพิมพ์: ทีม Falcon LLM
- ขนาด: 5,000 GB
- ใบอนุญาต: ODC-by-1.0
- ที่มา: การรวบรวมข้อมูลทั่วไป
Wudaocorpora-text 2021-6 | บางส่วน ZH | HG | กระดาษ | ชุดข้อมูล
- สำนักพิมพ์: Baai และคณะ
- ขนาด: 200 GB
- ใบอนุญาต: MIT
- ที่มา: หน้าเว็บจีน
Wanjuan-CC 2024-2 | บางส่วน en | HG | กระดาษ | ชุดข้อมูล
- สำนักพิมพ์: ห้องปฏิบัติการข่าวกรองของเซี่ยงไฮ้
- ขนาด: โทเค็น 1 T
- ใบอนุญาต: CC-by-4.0
- ที่มา: การรวบรวมข้อมูลทั่วไป
MADLAD-400 2023-9 | ทั้งหมด | Multi (419) | HG | กระดาษ | GitHub | ชุดข้อมูล
- Publisher: Google Deepmind และคณะ
- ขนาด: โทเค็น 2.8 T
- ใบอนุญาต: ODL-by
- ที่มา: การรวบรวมข้อมูลทั่วไป
Fineweb 2024-4 | ทั้งหมด | en | CI | ชุดข้อมูล
- สำนักพิมพ์: huggingfacefw
- ขนาด: โทเค็น 15 TB
- ใบอนุญาต: ODC-by-1.0
- ที่มา: การรวบรวมข้อมูลทั่วไป
CCI 2.0 2024-4 | ทั้งหมด | ZH | HG | ชุดข้อมูล 1 | ชุดข้อมูล 2
- สำนักพิมพ์: Baai
- ขนาด: 501 GB
- ใบอนุญาต: การใช้งาน CCI
- ที่มา: หน้าเว็บจีน
DCLM 2024-6 | ทั้งหมด | en | CI | กระดาษ | GitHub | ชุดข้อมูล เว็บไซต์
- สำนักพิมพ์: มหาวิทยาลัยวอชิงตันและคณะ
- ขนาด: 279.6 TB
- ใบอนุญาต: ข้อกำหนดการใช้งานทั่วไปการใช้งาน
- ที่มา: การรวบรวมข้อมูลทั่วไป
ข้อความภาษา
ANC 2003-X | ทั้งหมด | en | HG | เว็บไซต์
- สำนักพิมพ์: มูลนิธิวิทยาศาสตร์แห่งชาติสหรัฐอเมริกาและคณะ
- ขนาด: -
- ใบอนุญาต: -
- ที่มา: ตำราภาษาอังกฤษอเมริกัน
BNC 1994-X | ทั้งหมด | en | HG | เว็บไซต์
- สำนักพิมพ์: สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ดและคณะ
- ขนาด: 4124 ข้อความ
- ใบอนุญาต: -
- ที่มา: ข้อความภาษาอังกฤษอังกฤษ
News-Crawl 2019-1 | ทั้งหมด | Multi (59) | HG | ชุดข้อมูล
- สำนักพิมพ์: Ukri และคณะ
- ขนาด: 110 GB
- ใบอนุญาต: CC0
- ที่มา: หนังสือพิมพ์
หนังสือ
Archive ของ Anna 2023-X | ทั้งหมด | มัลติ | HG | เว็บไซต์
- สำนักพิมพ์: แอนนา
- ขนาด: 586.3 TB
- ใบอนุญาต: -
- ที่มา: Sci-Hub, Library Genesis, Z-Library ฯลฯ
Bookcorpusopen 2021-5 | ทั้งหมด | en | CI | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Jack Bandy และคณะ
- ขนาด: หนังสือ 17,868 เล่ม
- ใบอนุญาต: ข้อกำหนดในการให้บริการ smashwords
- ที่มา: Toronto Book Corpus
PG-19 2019-11 | ทั้งหมด | en | HG | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: DeepMind
- ขนาด: 11.74 GB
- ใบอนุญาต: Apache-2.0
- ที่มา: Project Gutenberg
Project Gutenberg 1971-X | ทั้งหมด | มัลติ | HG | เว็บไซต์
- สำนักพิมพ์: Ibiblio และคณะ
- ขนาด: -
- ใบอนุญาต: โครงการกูเทนเบิร์ก
- ที่มา: ข้อมูล ebook
SMASHWORDS 2008-X | ทั้งหมด | มัลติ | HG | เว็บไซต์
- สำนักพิมพ์: Draft2Digital และคณะ
- ขนาด: -
- ใบอนุญาต: ข้อกำหนดในการให้บริการ smashwords
- ที่มา: ข้อมูล ebook
Toronto Book Corpus 2015-6 | ไม่ใช่ | en | HG | กระดาษ | เว็บไซต์
- สำนักพิมพ์: มหาวิทยาลัยโตรอนโตและคณะ
- ขนาด: หนังสือ 11,038 เล่ม
- ใบอนุญาต: ข้อกำหนดการให้บริการ MIT & SMASHWORDS
- ที่มา: smashwords
สื่อการศึกษา
รหัส
BigQuery 2022-3 | ไม่ใช่ | PL | CI | กระดาษ | คนอื่น ๆ
- สำนักพิมพ์: Salesforce Research
- ขนาด: 341.1 GB
- ใบอนุญาต: Apache-2.0
- ที่มา: BigQuery
GitHub 2008-4 | ทั้งหมด | PL | HG | เว็บไซต์
- สำนักพิมพ์: Microsoft
- ขนาด: -
- ใบอนุญาต: -
- ที่มา: โครงการรหัสต่างๆ
Phi-1 2023-6 | ไม่ใช่ | en & pl | HG & MC | กระดาษ | ชุดข้อมูล
- สำนักพิมพ์: Microsoft Research
- ขนาด: โทเค็น 7 B
- ใบอนุญาต: CC-BY-NC-SA-3.0
- ที่มา: The Stack, Stackoverflow, GPT-3.5 Generation
สแต็ค 2022-11 | ทั้งหมด | PL (358) | HG | กระดาษ | ชุดข้อมูล
- สำนักพิมพ์: ServiceNow Research และคณะ
- ขนาด: 6 TB
- ใบอนุญาต: ข้อกำหนดของใบอนุญาตเดิม
- ที่มา: ไฟล์ซอร์สโค้ดที่ได้รับอนุญาตอย่างอนุญาต
คลังขนาน
MTP 2023-9 | ทั้งหมด | en & zh | HG & CI | ชุดข้อมูล
- สำนักพิมพ์: Baai
- ขนาด: 1.3 TB
- ใบอนุญาต: โปรโตคอลการใช้ข้อมูล BAAI
- ที่มา: คู่ข้อความคู่ขนานภาษาจีน-อังกฤษบนเว็บ
Multiun 2010-5 | ทั้งหมด | Multi (7) | HG | กระดาษ | เว็บไซต์
- สำนักพิมพ์: ศูนย์วิจัยของเยอรมันเพื่อปัญญาประดิษฐ์ (DFKI) GmbH
- ขนาด: 4353 MB
- ใบอนุญาต: -
- ที่มา: เอกสารของสหประชาชาติ
Paracrawl 2020-7 | ทั้งหมด | Multi (42) | HG | กระดาษ | เว็บไซต์
- สำนักพิมพ์: Prompsit และคณะ
- ขนาด: 59996 ไฟล์
- ใบอนุญาต: CC0
- ที่มา: ข้อมูลการรวบรวมข้อมูลเว็บ
Uncorpus v1.0 2016-5 | ทั้งหมด | Multi (6) | HG | กระดาษ | เว็บไซต์
- สำนักพิมพ์: สหประชาชาติและคณะ
- ขนาด: 799276 ไฟล์
- ใบอนุญาต: -
- ที่มา: เอกสารของสหประชาชาติ
Ccaligned 2020-11 | ทั้งหมด | Multi (138) | HG | กระดาษ | ชุดข้อมูล
- Publisher: Facebook AI และคณะ
- ขนาด: 392 M URL คู่
- ใบอนุญาต: -
- ที่มา: การรวบรวมข้อมูลทั่วไป
Wikimatrix 2021-4 | ทั้งหมด | Multi (85) | HG | กระดาษ | GitHub | ชุดข้อมูล
- Publisher: Facebook AI และคณะ
- ขนาด: 134 M ประโยคคู่ขนาน
- ใบอนุญาต: CC-by-SA
- ที่มา: Wikipedia
โซเชียลมีเดีย
OpenWebText 2019-4 | ทั้งหมด | en | HG | เว็บไซต์
- สำนักพิมพ์: มหาวิทยาลัยบราวน์
- ขนาด: 38 GB
- ใบอนุญาต: CC0
- ที่มา: Reddit
Pushshift Reddit 2020-1 | ทั้งหมด | en | CI | กระดาษ | เว็บไซต์
- สำนักพิมพ์: pushshift.io และคณะ
- ขนาด: 2 TB
- ใบอนุญาต: -
- ที่มา: Reddit
Reddit 2005-6 | ทั้งหมด | en | HG | เว็บไซต์
- สำนักพิมพ์: Condé Nast Digital และคณะ
- ขนาด: -
- ใบอนุญาต: -
- ที่มา: โพสต์โซเชียลมีเดีย
Stackexchange 2008-9 | ทั้งหมด | en | HG | ชุดข้อมูล เว็บไซต์
- สำนักพิมพ์: Exchange Stack
- ขนาด: -
- ใบอนุญาต: CC-BY-SA-4.0
- ที่มา: คำถามชุมชนและข้อมูลคำตอบ
WebText 2019-2 | บางส่วน en | HG | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Openai
- ขนาด: 40 GB
- ใบอนุญาต: MIT
- ที่มา: Reddit
Zhihu 2011-1 | ทั้งหมด | ZH | HG | เว็บไซต์
- สำนักพิมพ์: ปักกิ่ง Zhizhe Tianxia Technology Co. , Ltd
- ขนาด: -
- ใบอนุญาต: ข้อตกลงผู้ใช้ Zhihu
- ที่มา: โพสต์โซเชียลมีเดีย
สารานุกรม
Baidu Baike 2008-4 | ทั้งหมด | ZH | HG | เว็บไซต์
- สำนักพิมพ์: Baidu
- ขนาด: -
- ใบอนุญาต: ข้อตกลงผู้ใช้ Baidu Baike
- ที่มา: ข้อมูลเนื้อหาสารานุกรม
Tigerbot-Wiki 2023-5 | ทั้งหมด | ZH | HG | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Tigerbot
- ขนาด: 205 MB
- ใบอนุญาต: Apache-2.0
- ที่มา: Baidu Baike
Wikipedia 2001-1 | ทั้งหมด | มัลติ | HG | ชุดข้อมูล เว็บไซต์
- สำนักพิมพ์: มูลนิธิ Wikimedia
- ขนาด: -
- ใบอนุญาต: CC-BY-SA-3.0 & GFDL
- ที่มา: ข้อมูลเนื้อหาสารานุกรม
หลายหมวดหมู่
ภาษาอาหรับ 2022 2022-12 | ทั้งหมด | AR | HG & CI | ชุดข้อมูล
- สำนักพิมพ์: Baai และคณะ
- ขนาด: 201.9 GB
- ใบอนุญาต: CC-BY-SA-4.0
- ที่มา: Arabicweb, Oscar, CC100 ฯลฯ
MNBVC 2023-1 | ทั้งหมด | ZH | HG & CI | GitHub | ชุดข้อมูล
- สำนักพิมพ์: ชุมชน Liwu
- ขนาด: 20811 GB
- ใบอนุญาต: MIT
- ที่มา: หนังสือภาษาจีนหน้าเว็บวิทยานิพนธ์ ฯลฯ
Redpajama-V1 2023-4 | ทั้งหมด | มัลติ | HG & CI | GitHub | ชุดข้อมูล
- สำนักพิมพ์: คอมพิวเตอร์ร่วมกัน
- ขนาด: โทเค็น 1.2 T
- ใบอนุญาต: -
- ที่มา: การรวบรวมข้อมูลทั่วไป, GitHub, หนังสือ ฯลฯ
ราก 2023-3 | บางส่วน Multi (59) | HG & CI | กระดาษ | ชุดข้อมูล
- สำนักพิมพ์: Hugging Face และคณะ
- ขนาด: 1.61 TB
- ใบอนุญาต: Bloom Open-Rail-M
- ที่มา: Oscar, GitHub ฯลฯ
กอง 2021-1 | ทั้งหมด | en | HG & CI | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Eleutherai
- ขนาด: 825.18 GB
- ใบอนุญาต: MIT
- ที่มา: หนังสือ, arxiv, gitHub ฯลฯ
tigerbot_pretrain_en 2023-5 | บางส่วน en | CI | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Tigerbot
- ขนาด: 51 GB
- ใบอนุญาต: Apache-2.0
- ที่มา: หนังสือภาษาอังกฤษหน้าเว็บ en-wiki ฯลฯ
tigerbot_pretrain_zh 2023-5 | บางส่วน ZH | HG | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Tigerbot
- ขนาด: 55 GB
- ใบอนุญาต: Apache-2.0
- ที่มา: หนังสือจีน, หน้าเว็บ, Zh-Wiki ฯลฯ
Wanjuantext-1.0 2023-8 | ทั้งหมด | ZH | HG | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: ห้องปฏิบัติการเซี่ยงไฮ้ AI
- ขนาด: 1094 GB
- ใบอนุญาต: CC-by-4.0
- ที่มา: หน้าเว็บ, สารานุกรม, หนังสือ, ฯลฯ
Dolma 2024-1 | ทั้งหมด | en | HG & CI | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: AI2 และคณะ
- ขนาด: 11519 GB
- ใบอนุญาต: ข้อตกลง MR
- ที่มา: Project Gutenberg, C4, Reddit ฯลฯ
SLIMPAJAMA 2023-6 | ทั้งหมด | en | HG & CI | GitHub | ชุดข้อมูล เว็บไซต์
- สำนักพิมพ์: Cerebras และคณะ
- ขนาด: โทเค็น 627 B
- ใบอนุญาต: -
- ที่มา: การรวบรวมข้อมูลทั่วไป, C4, GitHub ฯลฯ
Massivetext 2021-12 | ไม่ใช่ | มัลติ | HG & CI | กระดาษ
- ผู้เผยแพร่: Google DeepMind
- ขนาด: 10.5 TB
- ใบอนุญาต: -
- ที่มา: MassiveWeb, C4, หนังสือ ฯลฯ
Minerva 2022-6 | ไม่ใช่ | en | HG | กระดาษ
- สำนักพิมพ์: Google Research
- ขนาด: โทเค็น 38.5 B
- ใบอนุญาต: -
- ที่มา: arxiv, หน้าเว็บ ฯลฯ
MAP-CC 2024-4 | ทั้งหมด | ZH | HG | กระดาษ | GitHub | ชุดข้อมูล เว็บไซต์
- สำนักพิมพ์: ชุมชนการวิจัยการฉายภาพศิลปะหลายรูปแบบและคณะ
- ขนาด: 840.48 B โทเค็น
- ใบอนุญาต: CC-BY-NC-ND-4.0
- ที่มา: การรวบรวมข้อมูลทั่วไปของจีนสารานุกรมจีนหนังสือจีน ฯลฯ
Expository-Prose-V1 2024-8 | ทั้งหมด | en | HG & CI | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Pints.ai Labs
- ขนาด: โทเค็น 56 B
- ใบอนุญาต: MIT
- ที่มา: Arxiv, Wikipedia, Gutenberg ฯลฯ
Corpora ก่อนการฝึกอบรมเฉพาะโดเมน
Corpora ก่อนการฝึกอบรมเฉพาะโดเมนเป็นชุดข้อมูล LLM ที่ปรับแต่งสำหรับฟิลด์หรือหัวข้อเฉพาะ ประเภทของคลังข้อมูลมักใช้ในขั้นตอนการฝึกอบรมก่อนการฝึกอบรมของ LLMS Corpora ถูกจัดประเภทตามโดเมนข้อมูล
รูปแบบข้อมูลชุดข้อมูล:
- Dataset name Release Time | Public or Not | Language | Construction Method | Paper | Github | Dataset | Website
- Publisher:
- Size:
- License:
- Source:
- Category:
- Domain:
การเงิน
BBT-Fincorpus 2023-2 | บางส่วน ZH | HG | กระดาษ | GitHub | เว็บไซต์
- สำนักพิมพ์: Fudan University และคณะ
- ขนาด: 256 GB
- ใบอนุญาต: -
- ที่มา: ประกาศ บริษัท รายงานการวิจัยทางการเงิน
- หมวดหมู่: Multi
- โดเมน: การเงิน
Fincorpus 2023-9 | ทั้งหมด | ZH | HG | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Du Xiaaman
- ขนาด: 60.36 GB
- ใบอนุญาต: Apache-2.0
- ที่มา: การประกาศของ บริษัท ข่าวการเงินคำถามการสอบทางการเงิน
- หมวดหมู่: Multi
- โดเมน: การเงิน
Finglm 2023-7 | ทั้งหมด | ZH | HG | คนอื่น ๆ
- สำนักพิมพ์: ความรู้ Atlas และคณะ
- ขนาด: 69 GB
- ใบอนุญาต: Apache-2.0
- ที่มา: รายงานประจำปีของ บริษัท จดทะเบียน
- หมวดหมู่: ข้อความภาษา
- โดเมน: การเงิน
Tigerbot-Ealing 2023-5 | ทั้งหมด | ZH | HG | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Tigerbot
- ขนาด: 488 MB
- ใบอนุญาต: Apache-2.0
- ที่มา: รายงานทางการเงิน
- หมวดหมู่: ข้อความภาษา
- โดเมน: การเงิน
Tigerbot-Research 2023-5 | ทั้งหมด | ZH | HG | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Tigerbot
- ขนาด: 696 MB
- ใบอนุญาต: Apache-2.0
- ที่มา: รายงานการวิจัย
- หมวดหมู่: ข้อความภาษา
- โดเมน: การเงิน
ทางการแพทย์
คณิตศาสตร์
Proof-Pile-2 2023-10 | ทั้งหมด | en | HG & CI | กระดาษ | GitHub | ชุดข้อมูล เว็บไซต์
- สำนักพิมพ์: Princeton University และคณะ
- ขนาด: โทเค็น 55 B
- ใบอนุญาต: -
- ที่มา: Arxiv, OpenWebMath, พีชคณิต
- หมวดหมู่: Multi
- โดเมน: คณิตศาสตร์
Mathpile 2023-12 | ทั้งหมด | en | HG | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: มหาวิทยาลัยเซี่ยงไฮ้ Jiao Tong และคณะ
- ขนาด: โทเค็น 9.5 B
- ใบอนุญาต: CC-BY-NC-SA-4.0
- ที่มา: ตำราเรียน, วิกิพีเดีย, Proofwiki, Commoncrawl, Stackexchange, arxiv
- หมวดหมู่: Multi
- โดเมน: คณิตศาสตร์
OpenWebMath 2023-10 | ทั้งหมด | en | HG | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: มหาวิทยาลัยโตรอนโตและคณะ
- ขนาด: 14.7 B โทเค็น
- ใบอนุญาต: ODC-by-1.0
- ที่มา: การรวบรวมข้อมูลทั่วไป
- หมวดหมู่: หน้าเว็บ
- โดเมน: คณิตศาสตร์
อื่น
ชุดข้อมูลการปรับแต่งการปรับแต่ง
ชุดข้อมูลการปรับแต่งการเรียนการสอนประกอบด้วยชุดของคู่ข้อความประกอบด้วย "อินพุตคำสั่ง" และ "คำตอบเอาต์พุต" “ อินพุตคำสั่ง” แสดงถึงคำขอที่มนุษย์ทำกับโมเดล มีคำแนะนำหลายประเภทเช่นการจำแนกประเภทการสรุปการถอดความ ฯลฯ “ คำตอบผลลัพธ์” คือการตอบสนองที่สร้างขึ้นโดยแบบจำลองตามคำสั่งและสอดคล้องกับความคาดหวังของมนุษย์
ชุดข้อมูลการปรับแต่งการปรับแต่งทั่วไป
ชุดข้อมูลการปรับแต่งการปรับแต่งทั่วไปมีหมวดหมู่คำสั่งอย่างน้อยหนึ่งประเภทโดยไม่มีข้อ จำกัด ของโดเมนโดยมีจุดประสงค์เพื่อเพิ่มความสามารถในการติดตามคำสั่งของ LLM ในงานทั่วไป ชุดข้อมูลถูกจัดประเภทตามวิธีการก่อสร้าง
รูปแบบข้อมูลชุดข้อมูล:
- Dataset name Release Time | Public or Not | Language | Construction Method | Paper | Github | Dataset | Website
- Publisher:
- Size:
- License:
- Source:
- Instruction Category:
ชุดข้อมูลที่มนุษย์สร้างขึ้น (HG)
Databricks-Dolly-15K 2023-4 | ทั้งหมด | en | HG | ชุดข้อมูล เว็บไซต์
- Publisher: Databricks
- ขนาด: 15011 อินสแตนซ์
- ใบอนุญาต: CC-BY-SA-3.0
- ที่มา: สร้างด้วยตนเองตามหมวดหมู่คำสั่งที่แตกต่างกัน
- หมวดหมู่คำแนะนำ: หลาย
คำแนะนำ WILD_V2 2023-6 | ทั้งหมด | en & zh | HG | คนอื่น ๆ
- สำนักพิมพ์: มหาวิทยาลัยแห่งชาติสิงคโปร์
- ขนาด: 110k อินสแตนซ์
- ใบอนุญาต: -
- ที่มา: รวบรวมบนเว็บ
- หมวดหมู่คำแนะนำ: หลาย
LCCC 2020-8 | ทั้งหมด | ZH | HG | กระดาษ | คนอื่น ๆ
- สำนักพิมพ์: มหาวิทยาลัย Tsinghua และคณะ
- ขนาด: 12m อินสแตนซ์
- ใบอนุญาต: MIT
- ที่มา: รวบรวมข้อมูลการโต้ตอบของผู้ใช้บนโซเชียลมีเดีย
- หมวดหมู่คำแนะนำ: หลาย
OASST1 2023-4 | ทั้งหมด | Multi (35) | HG | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: OpenAssistant
- ขนาด: 161443 อินสแตนซ์
- ใบอนุญาต: Apache-2.0
- ที่มา: สร้างและใส่คำอธิบายประกอบโดยมนุษย์
- หมวดหมู่คำแนะนำ: หลาย
OL-CC 2023-6 | ทั้งหมด | ZH | HG | ชุดข้อมูล
- สำนักพิมพ์: Baai
- ขนาด: 11655 อินสแตนซ์
- ใบอนุญาต: Apache-2.0
- ที่มา: สร้างและใส่คำอธิบายประกอบโดยมนุษย์
- หมวดหมู่คำแนะนำ: หลาย
Zhihu-Kol 2023-3 | ทั้งหมด | ZH | HG | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Wangrui6
- ขนาด: 1006218 อินสแตนซ์
- ใบอนุญาต: MIT
- ที่มา: รวบรวมข้อมูลจาก Zhihu
- หมวดหมู่คำแนะนำ: หลาย
ชุดข้อมูล AYA 2024-2 | ทั้งหมด | Multi (65) | HG | กระดาษ | ชุดข้อมูล เว็บไซต์
- สำนักพิมพ์: Cohere for AI Community และคณะ
- ขนาด: 204k อินสแตนซ์
- ใบอนุญาต: Apache-2.0
- ที่มา: รวบรวมและใส่คำอธิบายประกอบด้วยตนเองผ่านแพลตฟอร์ม AYA Annotation
- หมวดหมู่คำแนะนำ: หลาย
อาจารย์ 2023-5 | ทั้งหมด | en & zh | HG | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: มหาวิทยาลัยเจ้อเจียงและคณะ
- ขนาด: 371700 อินสแตนซ์
- ใบอนุญาต: MIT
- ที่มา: Baidu Baike, Wikipedia
- หมวดหมู่คำสั่ง: การสกัด
ชุดข้อมูลที่สร้างขึ้นรุ่น (MC)
Alpaca_data 2023-3 | ทั้งหมด | en | MC | คนอื่น ๆ
- สำนักพิมพ์: Stanford Alpaca
- ขนาด: อินสแตนซ์ 52K
- ใบอนุญาต: Apache-2.0
- ที่มา: สร้างโดย text-davinci-003 พร้อมพรอมต์ APLACA_DATA
- หมวดหมู่คำแนะนำ: หลาย
belle_generated_chat 2023-5 | ทั้งหมด | ZH | MC | GitHub | ชุดข้อมูล
- สำนักพิมพ์: เบลล์
- ขนาด: 396004 อินสแตนซ์
- ใบอนุญาต: GPL-3.0
- ที่มา: สร้างโดย CHATGPT
- หมวดหมู่คำแนะนำ: รุ่น
belle_multiturn_chat 2023-5 | ทั้งหมด | ZH | MC | GitHub | ชุดข้อมูล
- สำนักพิมพ์: เบลล์
- ขนาด: 831036 อินสแตนซ์
- ใบอนุญาต: GPL-3.0
- ที่มา: สร้างโดย CHATGPT
- หมวดหมู่คำแนะนำ: หลาย
belle_train_0.5m_cn 2023-4 | ทั้งหมด | ZH | MC | GitHub | ชุดข้อมูล
- สำนักพิมพ์: เบลล์
- ขนาด: 519255 อินสแตนซ์
- ใบอนุญาต: GPL-3.0
- ที่มา: สร้างโดย text-davinci-003
- หมวดหมู่คำแนะนำ: หลาย
belle_train_1m_cn 2023-4 | ทั้งหมด | ZH | MC | GitHub | ชุดข้อมูล
- สำนักพิมพ์: เบลล์
- ขนาด: 917424 อินสแตนซ์
- ใบอนุญาต: GPL-3.0
- ที่มา: สร้างโดย text-davinci-003
- หมวดหมู่คำแนะนำ: หลาย
belle_train_2m_cn 2023-5 | ทั้งหมด | ZH | MC | GitHub | ชุดข้อมูล
- สำนักพิมพ์: เบลล์
- ขนาด: 2m อินสแตนซ์
- ใบอนุญาต: GPL-3.0
- ที่มา: สร้างโดย CHATGPT
- หมวดหมู่คำแนะนำ: หลาย
belle_train_3.5m_cn 2023-5 | ทั้งหมด | ZH | MC | GitHub | ชุดข้อมูล
- สำนักพิมพ์: เบลล์
- ขนาด: 3606402 อินสแตนซ์
- ใบอนุญาต: GPL-3.0
- ที่มา: สร้างโดย CHATGPT
- หมวดหมู่คำแนะนำ: หลาย
อูฐ 2023-3 | ทั้งหมด | Multi & PL | MC | กระดาษ | GitHub | ชุดข้อมูล เว็บไซต์
- สำนักพิมพ์: Kaust
- ขนาด: 1659328 อินสแตนซ์
- ใบอนุญาต: CC-BY-NC-4.0
- ที่มา: บทสนทนาที่สร้างโดยตัวแทน GPT-3.5-turbo สองตัว
- หมวดหมู่คำแนะนำ: หลาย
chatgpt_corpus 2023-6 | ทั้งหมด | ZH | MC | คนอื่น ๆ
- สำนักพิมพ์: Plexpt
- ขนาด: 3270K อินสแตนซ์
- ใบอนุญาต: GPL-3.0
- ที่มา: สร้างโดย GPT-3.5-turbo
- หมวดหมู่คำแนะนำ: หลาย
คำแนะนำ WILD_V1 2023-3 | ทั้งหมด | en & zh | MC | คนอื่น ๆ
- สำนักพิมพ์: มหาวิทยาลัยแห่งชาติสิงคโปร์
- ขนาด: 104k อินสแตนซ์
- ใบอนุญาต: -
- ที่มา: สร้างโดย OpenAI API
- หมวดหมู่คำแนะนำ: หลาย
LMSYS-Chat-1M 2023-9 | ทั้งหมด | มัลติ | MC | กระดาษ | ชุดข้อมูล
- สำนักพิมพ์: UC Berkeley และคณะ
- ขนาด: 1m อินสแตนซ์
- ใบอนุญาต: ใบอนุญาต LMSYS-Chat-1M
- ที่มา: สร้างโดย LLM หลายตัว
- หมวดหมู่คำแนะนำ: หลาย
MOSS_002_SFT_DATA 2023-4 | ทั้งหมด | en & zh | MC | GitHub | ชุดข้อมูล
- สำนักพิมพ์: มหาวิทยาลัย Fudan
- ขนาด: 1161137 อินสแตนซ์
- ใบอนุญาต: CC-BY-NC-4.0
- ที่มา: สร้างโดย text-davinci-003
- หมวดหมู่คำแนะนำ: หลาย
MOSS_003_SFT_DATA 2023-4 | ทั้งหมด | en & zh | MC | GitHub | ชุดข้อมูล
- สำนักพิมพ์: มหาวิทยาลัย Fudan
- ขนาด: 1074551 อินสแตนซ์
- ใบอนุญาต: CC-BY-NC-4.0
- ที่มา: ข้อมูลการสนทนาจาก MOSS-002 และสร้างโดย GPT-3.5-turbo
- หมวดหมู่คำแนะนำ: หลาย
moss_003_sft_plugin_data 2023-4 | บางส่วน en & zh | MC | GitHub | ชุดข้อมูล
- สำนักพิมพ์: มหาวิทยาลัย Fudan
- ขนาด: 300k อินสแตนซ์
- ใบอนุญาต: CC-BY-NC-4.0
- ที่มา: สร้างโดยปลั๊กอินและ LLMS
- หมวดหมู่คำแนะนำ: หลาย
OpenChat 2023-7 | ทั้งหมด | en | MC | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: มหาวิทยาลัย Tsinghua และคณะ
- ขนาด: 70k อินสแตนซ์
- ใบอนุญาต: MIT
- ที่มา: ShareGpt
- หมวดหมู่คำแนะนำ: หลาย
Redgpt-Dataset-V1-CN 2023-4 | บางส่วน ZH | MC | คนอื่น ๆ
- สำนักพิมพ์: Da-Southampton
- ขนาด: 50k อินสแตนซ์
- ใบอนุญาต: Apache-2.0
- ที่มา: สร้างโดย LLMS
- หมวดหมู่คำแนะนำ: หลาย
Instruct ตัวเอง 2022-12 | ทั้งหมด | en | MC | กระดาษ | คนอื่น ๆ
- สำนักพิมพ์: มหาวิทยาลัยวอชิงตันและคณะ
- ขนาด: 52445 อินสแตนซ์
- ใบอนุญาต: Apache-2.0
- ที่มา: สร้างโดย GPT-3
- หมวดหมู่คำแนะนำ: หลาย
Sharechat 2023-4 | ทั้งหมด | มัลติ | MC | เว็บไซต์
- สำนักพิมพ์: Sharechat
- ขนาด: 90k อินสแตนซ์
- ใบอนุญาต: CC0
- ที่มา: ShareGpt
- หมวดหมู่คำแนะนำ: หลาย
Sharegpt-Chinese-English-90K 2023-7 | ทั้งหมด | en & zh | MC | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Shareai
- ขนาด: 90k อินสแตนซ์
- ใบอนุญาต: Apache-2.0
- ที่มา: ShareGpt
- หมวดหมู่คำแนะนำ: หลาย
ShareGPT90K 2023-4 | ทั้งหมด | en | MC | ชุดข้อมูล
- สำนักพิมพ์: Ryokoai
- ขนาด: 90k อินสแตนซ์
- ใบอนุญาต: CC0
- ที่มา: ShareGpt
- หมวดหมู่คำแนะนำ: หลาย
Ultachat 2023-5 | ทั้งหมด | en | MC | กระดาษ | คนอื่น ๆ
- สำนักพิมพ์: มหาวิทยาลัย Tsinghua
- ขนาด: 1468352 อินสแตนซ์
- ใบอนุญาต: CC-BY-NC-4.0
- ที่มา: บทสนทนาที่สร้างโดยตัวแทน CHATGPT สองคน
- หมวดหมู่คำแนะนำ: หลาย
คำแนะนำที่ผิดธรรมชาติ 2022-12 | ทั้งหมด | en | MC | กระดาษ | คนอื่น ๆ
- สำนักพิมพ์: มหาวิทยาลัยเทลอาวีฟและคณะ
- ขนาด: 240670 อินสแตนซ์
- ใบอนุญาต: MIT
- ที่มา: สร้างโดย LLMS
- หมวดหมู่คำแนะนำ: หลาย
WebGLM-QA 2023-6 | ทั้งหมด | en | MC | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: มหาวิทยาลัย Tsinghua และคณะ
- ขนาด: 44979 อินสแตนซ์
- ใบอนุญาต: Apache-2.0
- แหล่งที่มา: สร้าง WebGLM-QA ผ่าน LLM in-context bootstrapping
- หมวดหมู่คำแนะนำ: เปิด QA
Wizard_evol_instruct_196K 2023-6 | ทั้งหมด | en | MC | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Microsoft และคณะ
- ขนาด: อินสแตนซ์ 196k
- ใบอนุญาต: -
- ที่มา: พัฒนาคำแนะนำผ่านวิธีการพัฒนา
- หมวดหมู่คำแนะนำ: หลาย
Wizard_evol_instruct_70k 2023-5 | ทั้งหมด | en | MC | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Microsoft และคณะ
- ขนาด: 70k อินสแตนซ์
- ใบอนุญาต: -
- ที่มา: พัฒนาคำแนะนำผ่านวิธีการพัฒนา
- หมวดหมู่คำแนะนำ: หลาย
Wildchat 2024-5 | บางส่วน มัลติ | MC | กระดาษ | ชุดข้อมูล
- สำนักพิมพ์: Cornell University และคณะ
- ขนาด: 1039785 อินสแตนซ์
- ใบอนุญาต: ใบอนุญาตผลกระทบ AI2
- ที่มา: การสนทนาระหว่างผู้ใช้และ chatgpt, GPT-4
- หมวดหมู่คำแนะนำ: หลาย
การรวบรวมและปรับปรุงชุดข้อมูลที่มีอยู่ (CI)
CrossFit 2021-4 | ทั้งหมด | en | CI | กระดาษ | คนอื่น ๆ
- สำนักพิมพ์: มหาวิทยาลัยเซาเทิร์นแคลิฟอร์เนีย
- ขนาด: 269 ชุดข้อมูล
- ใบอนุญาต: -
- ที่มา: การรวบรวมและปรับปรุงชุดข้อมูล NLP ต่างๆ
- หมวดหมู่คำแนะนำ: หลาย
Dialogstudio 2023-7 | ทั้งหมด | en | CI | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Salesforce AI และคณะ
- ขนาด: 87 ชุดข้อมูล
- ใบอนุญาต: Apache-2.0
- ที่มา: การรวบรวมและปรับปรุงชุดข้อมูล NLP ต่างๆ
- หมวดหมู่คำแนะนำ: หลาย
Dynosaur 2023-5 | ทั้งหมด | en | CI | กระดาษ | GitHub | ชุดข้อมูล เว็บไซต์
- สำนักพิมพ์: UCLA และคณะ
- ขนาด: 801900 อินสแตนซ์
- ใบอนุญาต: Apache-2.0
- ที่มา: การรวบรวมและปรับปรุงชุดข้อมูล NLP ต่างๆ
- หมวดหมู่คำแนะนำ: หลาย
Flan-Mini 2023-7 | ทั้งหมด | en | CI | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: มหาวิทยาลัยเทคโนโลยีและการออกแบบสิงคโปร์
- ขนาด: อินสแตนซ์ 1.34m
- ใบอนุญาต: CC
- ที่มา: การรวบรวมและปรับปรุงชุดข้อมูลการปรับแต่งการเรียนการสอนที่หลากหลาย
- หมวดหมู่คำแนะนำ: หลาย
Flan 2021 2021-9 | ทั้งหมด | มัลติ | CI | กระดาษ | คนอื่น ๆ
- สำนักพิมพ์: Google Research
- ขนาด: 62 ชุดข้อมูล
- ใบอนุญาต: Apache-2.0
- ที่มา: การรวบรวมและปรับปรุงชุดข้อมูล NLP ต่างๆ
- หมวดหมู่คำแนะนำ: หลาย
Flan 2022 2023-1 | บางส่วน มัลติ | CI | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Google Research
- ขนาด: ชุดข้อมูล 1836
- ใบอนุญาต: Apache-2.0
- ที่มา: การรวบรวมและปรับปรุงชุดข้อมูลการปรับแต่งการเรียนการสอนที่หลากหลาย
- หมวดหมู่คำแนะนำ: หลาย
InstressDial 2022-5 | ทั้งหมด | en | CI | กระดาษ | คนอื่น ๆ
- สำนักพิมพ์: Carnegie Mellon University
- ขนาด: 59 ชุดข้อมูล
- ใบอนุญาต: Apache-2.0
- ที่มา: การรวบรวมและปรับปรุงชุดข้อมูล NLP ต่างๆ
- หมวดหมู่คำแนะนำ: หลาย
คำแนะนำจากธรรมชาติ 2021-4 | ทั้งหมด | en | CI | กระดาษ | GitHub | ชุดข้อมูล
- สำนักพิมพ์: Allen Institute สำหรับ AI และคณะ
- ขนาด: 61 ชุดข้อมูล
- ใบอนุญาต: Apache-2.0
- ที่มา: การรวบรวมและปรับปรุงชุดข้อมูล NLP ต่างๆ
- หมวดหมู่คำแนะนำ: หลาย
OIG 2023-3 | ทั้งหมด | en | CI | ชุดข้อมูล
- สำนักพิมพ์: Laion
- ขนาด: 3878622 อินสแตนซ์
- ใบอนุญาต: Apache-2.0
- ที่มา: การรวบรวมและปรับปรุงชุดข้อมูลต่างๆ
- หมวดหมู่คำแนะนำ: หลาย
Open-platypus 2023-8 | ทั้งหมด | en | CI | กระดาษ | GitHub | ชุดข้อมูล เว็บไซต์
- สำนักพิมพ์: มหาวิทยาลัยบอสตัน
- ขนาด: 24926 อินสแตนซ์
- ใบอนุญาต: -
- ที่มา: การรวบรวมและปรับปรุงชุดข้อมูลต่างๆ
- หมวดหมู่คำแนะนำ: หลาย
Bench Opt-Iml 2022-12 | ไม่ใช่ | มัลติ | CI | กระดาษ | คนอื่น ๆ
- สำนักพิมพ์: Meta AI
- ขนาด: ชุดข้อมูล 2000
- ใบอนุญาต: MIT
- ที่มา: การรวบรวมและปรับปรุงชุดข้อมูล NLP ต่างๆ
- หมวดหมู่คำแนะนำ: หลาย
Promptsource 2022-2 | All | EN | CI | Paper | คนอื่น ๆ
- Publisher: Brown University et al.
- Size: 176 datasets
- License: Apache-2.0
- Source: Collection and improvement of various NLP datasets
- Instruction Category: Multi
SUPER-NATURAL INSTRUCTIONS 2022-4 | All | Multi | CI | Paper | คนอื่น ๆ
- Publisher: Univ. of Washington et al.
- Size: 1616 datasets
- License: Apache-2.0
- Source: Collection and improvement of various NLP datasets
- Instruction Category: Multi
T0 2021-10 | All | EN | CI | Paper | Dataset1 | Dataset2
- Publisher: Hugging Face et al.
- Size: 62 datasets
- License: Apache-2.0
- Source: Collection and improvement of various NLP datasets
- Instruction Category: Multi
UnifiedSKG 2022-3 | All | EN | CI | Paper | คนอื่น ๆ
- Publisher: The University of Hong Kong et al.
- Size: 21 datasets
- License: Apache-2.0
- Source: Collection and improvement of various NLP datasets
- Instruction Category: Multi
xP3 2022-11 | All | Multi (46) | CI | Paper | คนอื่น ๆ
- Publisher: Hugging Face et al.
- Size: 82 datasets
- License: Apache-2.0
- Source: Collection and improvement of various NLP datasets
- Instruction Category: Multi
IEPile 2024-2 | All | EN & ZH | CI | Paper | Github | ชุดข้อมูล
- Publisher: Zhejiang University et al.
- Size: 33 datasets
- License: CC-BY-NC-SA-4.0
- Source: Collection and improvement of various IE datasets
- Instruction Category: Extraction
KOLLM-Conversations 2024-3 | All | KO | CI | ชุดข้อมูล
- Publisher: davidkim205
- Size: 1122566 instances
- License: Apache-2.0
- Source: Collection and improvement of Korean datasets
- Instruction Category: Multi
HG & CI
Firefly 2023-4 | All | ZH | HG & CI | Github | ชุดข้อมูล
- Publisher: YeungNLP
- Size: 1649399 instances
- ใบอนุญาต: -
- Source: Collect Chinese NLP datasets and manually generate data related to Chinese culture
- Instruction Category: Multi
LIMA-sft 2023-5 | All | EN | HG & CI | Paper | ชุดข้อมูล
- Publisher: Meta AI et al.
- Size: 1330 instances
- License: CC-BY-NC-SA
- Source: Manually select from various types of data
- Instruction Category: Multi
COIG-CQIA 2024-3 | All | ZH | HG & CI | Paper | ชุดข้อมูล
- Publisher: Shenzhen Institute of Advanced Technology et al.
- Size: 48375 instances
- ใบอนุญาต: -
- Source: Q&A communities, Wikipedia, examinations, existing NLP datasets
- Instruction Category: Multi
HG & MC
- InstructGPT-sft 2022-3 | Not | EN | HG & MC | กระดาษ
- Publisher: OpenAI
- Size: 14378 instances
- ใบอนุญาต: -
- Source: Platform Q&A data and manual labeling
- Instruction Category: Multi
CI & MC
Alpaca_GPT4_data 2023-4 | All | EN | CI & MC | Paper | คนอื่น ๆ
- Publisher: Microsoft Research
- Size: 52K instances
- License: Apache-2.0
- Source: Generated by GPT-4 with Aplaca_data prompts
- Instruction Category: Multi
Alpaca_GPT4_data_zh 2023-4 | All | ZH | CI & MC | Github | ชุดข้อมูล
- Publisher: Microsoft Research
- Size: 52K instances
- License: Apache-2.0
- Source: Generated by GPT-4 with Alpaca_data prompts translated into Chinese by ChatGPT
- Instruction Category: Multi
Bactrain-X 2023-5 | All | Multi (52) | CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: MBZUAI
- Size: 3484884 instances
- License: CC-BY-NC-4.0
- Source: Generated by GPT-3.5-Turbo with Aplaca_data and databricks-dolly-15K prompts translated into 51 languages by Google Translate API
- Instruction Category: Multi
Baize 2023-3 | Partial | EN | CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: University of California et al.
- Size: 210311 instances
- License: GPL-3.0
- Source: Sample seeds from specific datasets to create multi-turn dialogues using ChatGPT
- Instruction Category: Multi
GPT4All 2023-3 | All | EN | CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: nomic-ai
- Size: 739259 instances
- License: MIT
- Source: Generated by GPT-3.5-Turbo with other datasets' prompts
- Instruction Category: Multi
GuanacoDataset 2023-3 | All | Multi | CI & MC | Dataset | เว็บไซต์
- Publisher: JosephusCheung
- Size: 534530 instances
- License: GPL-3.0
- Source: Expand upon the initial 52K dataset from the Alpaca model
- Instruction Category: Multi
LaMini-LM 2023-4 | All | EN | CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: Monash University et al.
- Size: 2585615 instances
- License: CC-BY-NC-4.0
- Source: Generated by ChatGPT with synthetic and existing prompts
- Instruction Category: Multi
LogiCoT 2023-5 | All | EN & ZH | CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: Westlake University et al.
- Size: 604840 instances
- License: CC-BY-NC-ND-4.0
- Source: Expand the datasets using GPT-4
- Instruction Category: Reasoning
LongForm 2023-4 | All | EN | CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: LMU Munich et al.
- Size: 27739 instances
- License: MIT
- Source: Select documents from existing corpora and generating prompts for the documents using LLMs
- Instruction Category: Multi
Luotuo-QA-B 2023-5 | All | EN & ZH | CI & MC | Github | ชุดข้อมูล
- Publisher: Luotuo
- Size: 157320 instances
- License: Apache-2.0 & CC0
- Source: Use LLMs to generate Q&A pairs on CSL, arXiv, and CNN-DM datasets
- Instruction Category: Multi
OpenOrca 2023-6 | All | Multi | CI & MC | Paper | ชุดข้อมูล
- Publisher: Microsoft Researc
- Size: 4233923 instances
- License: MIT
- Source: Expand upon the Flan 2022 dataset using GPT-3.5-Turbo and GPT-4
- Instruction Category: Multi
Wizard_evol_instruct_zh 2023-5 | All | ZH | CI & MC | Github | ชุดข้อมูล
- Publisher: Central China Normal University et al.
- Size: 70K instances
- License: CC-BY-4.0
- Source: Generated by GPT with Wizard_evol_instruct prompts translated into Chinese
- Instruction Category: Multi
Lithuanian-QA-v1 2024-8 | All | LT | CI & MC | Paper | ชุดข้อมูล
- Publisher: Neurotechnology
- Size: 13848 instances
- License: CC-BY-4.0
- Source: Use ChatGPT to generate Q&A pairs on Wikipedia corpus
- Instruction Category: Multi
LongWriter-6K 2024-8 | All | EN & ZH | CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: Tsinghua University et al.
- Size: 6000 instances
- License: Apache-2.0
- Source: Generated by GPT-4o with open-source datasets' prompts
- Instruction Category: Multi
HG & CI & MC
COIG 2023-4 | All | ZH | HG & CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: BAAI
- Size: 191191 instances
- License: Apache-2.0
- Source: Translated instructions, Leetcode, Chinese exams, etc.
- Instruction Category: Multi
HC3 2023-1 | All | EN & ZH | HG & CI & MC | Paper | Github | Dataset1 | Dataset2
- Publisher: SimpleAI
- Size: 37175 instances
- License: CC-BY-SA-4.0
- Source: Human-Q&A pairs and ChatGPT-Q&A pairs from Q&A platforms, encyclopedias, etc.
- Instruction Category: Multi
Phoenix-sft-data-v1 2023-5 | All | Multi | HG & CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: The Chinese University of Hong Kong et al.
- Size: 464510 instances
- License: CC-BY-4.0
- Source: Collected multi-lingual instructions, post-translated multi-lingual instructions, self-generated user-centered multi-lingual instructions
- Instruction Category: Multi
TigerBot_sft_en 2023-5 | Partial | EN | HG & CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: TigerBot
- Size: 677117 instances
- License: Apache-2.0
- Source: Self-instruct, human-labeling, open-source data cleaning
- Instruction Category: Multi
TigerBot_sft_zh 2023-5 | Partial | ZH | HG & CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: TigerBot
- Size: 530705 instances
- License: Apache-2.0
- Source: Self-instruct, human-labeling, open-source data cleaning
- Instruction Category: Multi
Aya Collection 2024-2 | All | Multi (114) | HG & CI & MC | Paper | Dataset | เว็บไซต์
- Publisher: Cohere For AI Community et al.
- Size: 513M instances
- License: Apache-2.0
- Source: Templated data, Translated data and Aya Dataset
- Instruction Category: Multi
REInstruct 2024-8 | Not | EN | HG & CI & MC | Paper | คนอื่น ๆ
- Publisher: Chinese Information Processing Laboratory et al.
- Size: 35K instances
- ใบอนุญาต: -
- Source: Automatically constructing instruction data from the C4 corpus using a small amount of manually annotated seed instruction data
- Instruction Category: Multi
Domain-specific Instruction Fine-tuning Datasets
The domain-specific instruction fine-tuning datasets are constructed for a particular domain by formulating instructions that encapsulate knowledge and task types closely related to that domain.
Dataset information format:
- Dataset name Release Time | Public or Not | Language | Construction Method | Paper | Github | Dataset | Website
- Publisher:
- Size:
- License:
- Source:
- Instruction Category:
- Domain:
ทางการแพทย์
ChatDoctor 2023-3 | All | EN | HG & MC | Paper | Github | ชุดข้อมูล
- Publisher: University of Texas Southwestern Medical Center et al.
- Size: 115K instances
- License: Apache-2.0
- Source: Real conversations between doctors and patients & Generated by ChatGPT
- Instruction Category: Multi
- Domain: Medical
ChatMed_Consult_Dataset 2023-5 | All | ZH | MC | Github | ชุดข้อมูล
- Publisher: michael-wzhu
- Size: 549326 instances
- License: CC-BY-NC-4.0
- Source: Generated by GPT-3.5-Turbo
- Instruction Category: Multi
- Domain: Medical
CMtMedQA 2023-8 | All | ZH | HG | Paper | Github | ชุดข้อมูล
- Publisher: Zhengzhou University
- Size: 68023 instances
- License: MIT
- Source: Real conversations between doctors and patients
- Instruction Category: Multi
- Domain: Medical
DISC-Med-SFT 2023-8 | All | ZH | HG & CI | Paper | Github | Dataset | เว็บไซต์
- Publisher: Fudan University et al.
- Size: 464898 instances
- License: Apache-2.0
- Source: Open source datasets & Manually selected data
- Instruction Category: Multi
- Domain: Medical
HuatuoGPT-sft-data-v1 2023-5 | All | ZH | HG & MC | Paper | Github | ชุดข้อมูล
- Publisher: The Chinese University of Hong Kong et al.
- Size: 226042 instances
- License: Apache-2.0
- Source: Real conversations between doctors and patients & Generated by ChatGPT
- Instruction Category: Multi
- Domain: Medical
Huatuo-26M 2023-5 | Partial | ZH | CI | Paper | คนอื่น ๆ
- Publisher: The Chinese University of Hong Kong et al.
- Size: 26504088 instances
- License: Apache-2.0
- Source: Collection and improvement of various datasets
- Instruction Category: Multi
- Domain: Medical
MedDialog 2020-4 | All | EN & ZH | HG | Paper | คนอื่น ๆ
- Publisher: UC San Diego
- Size: 3.66M instances
- ใบอนุญาต: -
- Source: Real conversations between doctors and patients
- Instruction Category: Multi
- Domain: Medical
Medical Meadow 2023-4 | All | EN | HG & CI | Paper | Github | ชุดข้อมูล
- Publisher: University Hospital Aachen et al.
- Size: 160076 instances
- License: GPL-3.0
- Source: Crawl data from the Internet & Collection and improvement of various NLP datasets
- Instruction Category: Multi
- Domain: Medical
Medical-sft 2023-5 | All | EN & ZH | CI | Github | ชุดข้อมูล
- Publisher: Ming Xu
- Size: 2.07M instances
- License: Apache-2.0
- Source: Collection and improvement of various NLP datasets
- Instruction Category: Multi
- Domain: Medical
QiZhenGPT-sft-20k 2023-5 | Partial | ZH | CI | Github | ชุดข้อมูล
- Publisher: Zhejiang University
- Size: 20K instances
- License: GPL-3.0
- Source: Collection and improvement of various datasets
- Instruction Category: Multi
- Domain: Medical
ShenNong_TCM_Dataset 2023-6 | All | ZH | MC | Github | ชุดข้อมูล
- Publisher: michael-wzhu
- Size: 112565 instances
- License: Apache-2.0
- Source: Generated by ChatGPT
- Instruction Category: Multi
- Domain: Medical
รหัส
Code_Alpaca_20K 2023-3 | All | EN & PL | MC | Github | ชุดข้อมูล
- Publisher: Sahil Chaudhary
- Size: 20K instances
- License: Apache-2.0
- Source: Generated by Text-Davinci-003
- Instruction Category: Code
- Domain: Code
CodeContest 2022-3 | All | EN & PL | CI | Paper | คนอื่น ๆ
- Publisher: DeepMind
- Size: 13610 instances
- License: Apache-2.0
- Source: Collection and improvement of various datasets
- Instruction Category: Code
- Domain: Code
CommitPackFT 2023-8 | All | EN & PL (277) | HG | Paper | Github | ชุดข้อมูล
- Publisher: Bigcode
- Size: 702062 instances
- License: MIT
- Source: GitHub Action dump
- Instruction Category: Code
- Domain: Code
ToolAlpaca 2023-6 | All | EN & PL | HG & MC | Paper | คนอื่น ๆ
- Publisher: Chinese Information Processing Laboratory et al.
- Size: 3928 instances
- License: Apache-2.0
- Source: Manually filter APIs & Generated by ChatGPT
- Instruction Category: Code
- Domain: Code
ToolBench 2023-7 | All | EN & PL | HG & MC | Paper | คนอื่น ๆ
- Publisher: Tsinghua University et al.
- Size: 126486 instances
- License: Apache-2.0
- Source: Manually filter APIs & Generated by ChatGPT
- Instruction Category: Code
- Domain: Code
ถูกกฎหมาย
DISC-Law-SFT 2023-9 | Partial | ZH | HG & CI & MC | Paper | Github | เว็บไซต์
- Publisher: Fudan University et al.
- Size: 403K instances
- License: Apache-2.0
- Source: Open source datasets & Legal-related Text Content & Generated by GPT-3.5-Turbo
- Instruction Category: Multi
- Domain: Law
HanFei 1.0 2023-5 | All | ZH | - Github | ชุดข้อมูล
- Publisher: Chinese Academy of Sciences et al.
- Size: 255K instances
- License: Apache-2.0
- Source: Filter legal-related data according to rules
- Instruction Category: Multi
- Domain: Law
LawGPT_zh 2023-5 | Partial | ZH | CI & MC | Github | ชุดข้อมูล
- Publisher: Shanghai Jiao Tong University
- Size: 200K instances
- ใบอนุญาต: -
- Source: Real conversations & Generated by ChatGPT
- Instruction Category: Multi
- Domain: Law
Lawyer LLaMA_sft 2023-5 | Partial | ZH | CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: Peking Universit
- Size: 21476 instances
- License: Apache-2.0
- Source: Generated by ChatGPT with other datasets' prompts
- Instruction Category: Multi
- Domain: Law
คณิตศาสตร์
BELLE_School_Math 2023-5 | All | ZH | MC | Github | ชุดข้อมูล
- Publisher: BELLE
- Size: 248481 instances
- License: GPL-3.0
- Source: Generated by ChatGPT
- Instruction Category: Math
- Domain: Math
Goat 2023-5 | All | EN | HG | Paper | Github | ชุดข้อมูล
- Publisher: National University of Singapore
- Size: 1746300 instances
- License: Apache-2.0
- Source: Artificially synthesized data
- Instruction Category: Math
- Domain: Math
MWP 2021-9 | All | EN & ZH | CI | Paper | Github | ชุดข้อมูล
- Publisher: Xihua University et al.
- Size: 251598 instances
- License: MIT
- Source: Collection and improvement of various datasets
- Instruction Category: Math
- Domain: Math
OpenMathInstruct-1 2024-2 | All | EN | CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: NVIDIA
- Size: 1.8M instances
- License: NVIDIA License
- Source: GSM8K and MATH datasets (original questions); Generated using Mixtral-8×7B model
- Instruction Category: Math
- Domain: Math
การศึกษา
Child_chat_data 2023-8 | All | ZH | HG & MC | คนอื่น ๆ
- Publisher: Harbin Institute of Technology et al.
- Size: 5000 instances
- ใบอนุญาต: -
- Source: Real conversations & Generated by GPT-3.5-Turbo
- Instruction Category: Multi
- Domain: Education
Educhat-sft-002-data-osm 2023-7 | All | EN & ZH | CI | Paper | Github | ชุดข้อมูล
- Publisher: East China Normal University et al.
- Size: 4279419 instances
- License: CC-BY-NC-4.0
- Source: Collection and improvement of various datasets
- Instruction Category: Multi
- Domain: Education
TaoLi_data 2023-X | All | ZH | HG & CI | Github | ชุดข้อมูล
- Publisher: Beijing Language and Culture University et al.
- Size: 88080 instances
- License: Apache-2.0
- Source: Collection and improvement of various datasets & Manually extract dictionary data
- Instruction Category: Multi
- Domain: Education
อื่น
DISC-Fin-SFT 2023-10 | Partial | ZH | HG & CI & MC | Paper | Github | เว็บไซต์
- Publisher: Fudan University et al.
- Size: 246K instances
- License: Apache-2.0
- Source: Open source datasets & Manually collect financial data & ChatGPT assistance
- Instruction Category: Multi
- Domain: Financial
AlphaFin 2024-3 | All | EN & ZH | HG & CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: South China University of Technology et al.
- Size: 167362 instances
- License: Apache-2.0
- Source: Traditional research datasets, real-time financial data, handwritten CoT data
- Instruction Category: Multi
- Domain: Financial
GeoSignal 2023-6 | Partial | EN | HG & CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: Shanghai Jiao Tong University et al.
- Size: 22627272 instances
- License: Apache-2.0
- Source: Open source datasets & Geoscience-related Text Content & Generated by GPT-4
- Instruction Category: Multi
- Domain: Geoscience
MeChat 2023-4 | All | ZH | CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: Zhejiang University et al.
- Size: 56K instances
- License: CC0-1.0
- Source: Based on PsyQA dataset with the proposed SMILE method
- Instruction Category: Multi
- Domain: Mental Health
Mol-Instructions 2023-6 | All | EN | HG & CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: Zhejiang University et al.
- Size: 2043586 instances
- License: CC-BY-4.0
- Source: Molecule-oriented, Protein-oriented, Biomolecular text instructions
- Instruction Category: Multi
- Domain: Biology
Owl-Instruction 2023-9 | All | EN & ZH | HG & MC | Paper | คนอื่น ๆ
- Publisher: Beihang University et al.
- Size: 17858 instances
- ใบอนุญาต: -
- Source: Generated by GPT-4 & Manual verification
- Instruction Category: Multi
- Domain: IT
PROSOCIALDIALOG 2022-5 | All | EN | HG & MC | Paper | ชุดข้อมูล
- Publisher: Allenai
- Size: 165681 instances
- License: CC-BY-4.0
- Source: Generated by humans with GPT-3 created prompts
- Instruction Category: Social Norms
- Domain: Social Norms
TransGPT-sft 2023-7 | All | ZH | HG | Github | ชุดข้อมูล
- Publisher: Beijing Jiaotong University
- Size: 58057 instances
- License: Apache-2.0
- Source: Manually collect traffic-related data
- Instruction Category: Multi
- Domain: Transportation
Preference Datasets
Preference datasets are collections of instructions that provide preference evaluations for multiple responses to the same instruction input.
Preference Evaluation Methods
The preference evaluation methods for preference datasets can be categorized into voting, sorting, scoring, and other methods. Datasets are classified based on preference evaluation methods.
Dataset information format:
- Dataset name Release Time | Public or Not | Language | Construction Method | Paper | Github | Dataset | Website
- Publisher:
- Size:
- License:
- Domain:
- Instruction Category:
- Preference Evaluation Method:
- Source:
ลงคะแนนเสียง
Chatbot_arena_conversations 2023-6 | All | Multi | HG & MC | Paper | ชุดข้อมูล
- Publisher: UC Berkeley et al.
- Size: 33000 instances
- License: CC-BY-4.0 & CC-BY-NC-4.0
- Domain: General
- Instruction Category: Multi
- Preference Evaluation Method: VO-H
- Source: Generated by twenty LLMs & Manual judgment
hh-rlhf 2022-4 | All | EN | HG & MC | Paper1 | Paper2 | Github | ชุดข้อมูล
- Publisher: Anthropic
- Size: 169352 instances
- License: MIT
- Domain: General
- Instruction Category: Multi
- Preference Evaluation Method: VO-H
- Source: Generated by LLMs & Manual judgment
MT-Bench_human_judgments 2023-6 | All | EN | HG & MC | Paper | Github | Dataset | เว็บไซต์
- Publisher: UC Berkeley et al.
- Size: 3.3K instances
- License: CC-BY-4.0
- Domain: General
- Instruction Category: Multi
- Preference Evaluation Method: VO-H
- Source: Generated by LLMs & Manual judgment
PKU-SafeRLHF 2023-7 | Partial | EN | HG & CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: Peking University
- Size: 361903 instances
- License: CC-BY-NC-4.0
- Domain: Social Norms
- Instruction Category: Social Norms
- Preference Evaluation Method: VO-H
- Source: Generated by LLMs & Manual judgment
SHP 2021-10 | All | EN | HG | Paper | Github | ชุดข้อมูล
- Publisher: Stanford
- Size: 385563 instances
- ใบอนุญาต: -
- Domain: General
- Instruction Category: Multi
- Preference Evaluation Method: VO-H
- Source: Reddit data & Manual judgment
Zhihu_rlhf_3k 2023-4 | All | ZH | HG | ชุดข้อมูล
- Publisher: Liyucheng
- Size: 3460 instances
- License: CC-BY-2.0
- Domain: General
- Instruction Category: Multi
- Preference Evaluation Method: VO-H
- Source: Zhihu data & Manual judgment
Summarize_from_Feedback 2020-9 | All | EN | HG & CI | Paper | ชุดข้อมูล
- Publisher: OpenAI
- Size: 193841 instances
- ใบอนุญาต: -
- Domain: News
- Instruction Category: Multi
- Preference Evaluation Method: VO-H & SC-H
- Source: Open source datasets & Manual judgment and scoring
CValues 2023-7 | All | ZH | MC | Paper | Github | ชุดข้อมูล
- Publisher: Alibaba Group
- Size: 145K instances
- License: Apache-2.0
- Domain: Social Norms
- Instruction Category: Social Norms
- Preference Evaluation Method: VO-M
- Source: Generated by LLMs & Evaluation by the reward model
huozi_rlhf_data 2024-2 | All | ZH | HG & MC | Github | ชุดข้อมูล
- Publisher: Huozi-Team
- Size: 16918 instances
- License: Apache-2.0
- Domain: General
- Instruction Category: Multi
- Preference Evaluation Method: VO-H
- Source: Generated by Huozi model & Manual judgment
เรียงลำดับ
- OASST1_pairwise_rlhf_reward 2023-5 | All | Multi | CI | ชุดข้อมูล
- Publisher: Tasksource
- Size: 18918 instances
- License: Apache-2.0
- Domain: General
- Instruction Category: Multi
- Preference Evaluation Method: SO-H
- Source: OASST1 datasets & Manual sorting
คะแนน
Stack-Exchange-Preferences 2021-12 | All | EN | HG | Paper | ชุดข้อมูล
- Publisher: Anthropic
- Size: 10807695 instances
- License: CC-BY-SA-4.0
- Domain: General
- Instruction Category: Multi
- Preference Evaluation Method: SC-H
- Source: Stackexchange data & Manual scoring
WebGPT 2021-12 | All | EN | HG & CI | Paper | ชุดข้อมูล
- Publisher: OpenAI
- Size: 19578 instances
- ใบอนุญาต: -
- Domain: General
- Instruction Category: Multi
- Preference Evaluation Method: SC-H
- Source: Open source datasets & Manual scoring
Alpaca_comparison_data 2023-3 | All | EN | MC | คนอื่น ๆ
- Publisher: Stanford Alpaca
- Size: 51K instances
- License: Apache-2.0
- Domain: General
- Instruction Category: Multi
- Preference Evaluation Method: SC-M
- Source: Generated by three LLMs & GPT-4 scoring
Stable_Alignment 2023-5 | All | EN | MC | Paper | คนอื่น ๆ
- Publisher: Dartmouth College et al.
- Size: 169K instances
- License: Apache-2.0
- Domain: General
- Instruction Category: Multi
- Preference Evaluation Method: SC-M
- Source: Generated by LLMs & Model scoring
UltraFeedback 2023-10 | All | EN | CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: Tsinghua University et al.
- Size: 63967 instances
- License: MIT
- Domain: General
- Instruction Category: Multi
- Preference Evaluation Method: SC-M
- Source: Generated by seventeen LLMs & Model scoring
OpenHermesPreferences 2024-2 | All | EN | CI & MC | ชุดข้อมูล
- Publisher: Argilla et al.
- Size: 989490 instances
- ใบอนุญาต: -
- Domain: General
- Instruction Category: Multi
- Preference Evaluation Method: SO-M
- Source: OpenHermes-2.5 dataset & Model sorting
HelpSteer 2023-11 | All | EN | HG & CI & MC | Paper | ชุดข้อมูล
- Publisher: NVIDIA
- Size: 37120 instances
- License: CC-BY-4.0
- Domain: General
- Instruction Category: Multi
- Preference Evaluation Method: SC-H
- Source: Generated by LLMs & Manual judgment
HelpSteer2 2024-6 | All | EN | HG & CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: NVIDIA
- Size: 21362 instances
- License: CC-BY-4.0
- Domain: General
- Instruction Category: Multi
- Preference Evaluation Method: SC-H
- Source: Generated by LLMs & Manual judgment
อื่น
Evaluation Datasets
Evaluation datasets are a carefully curated and annotated set of data samples used to assess the performance of LLMs across various tasks. Datasets are classified based on evaluation domains.
Dataset information format:
- Dataset name Release Time | Public or Not | Language | Construction Method | Paper | Github | Dataset | Website
- Publisher:
- Size:
- License:
- Question Type:
- Evaluation Method:
- Focus:
- Numbers of Evaluation Categories/Subcategories:
- Evaluation Category:
ทั่วไป
AlpacaEval 2023-5 | All | EN | CI & MC | Paper | Github | Dataset | เว็บไซต์
- Publisher: Stanford et al.
- Size: 805 instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: ME
- Focus: The performance on open-ended question answering
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Open-ended question answering
BayLing-80 2023-6 | All | EN & ZH | HG & CI | Paper | Github | ชุดข้อมูล
- Publisher: Chinese Academy of Sciences
- Size: 320 instances
- License: GPL-3.0
- Question Type: SQ
- Evaluation Method: ME
- Focus: Chinese-English language proficiency and multimodal interaction skills
- Numbers of Evaluation Categories/Subcategories: 9/-
- Evaluation Category: Writing, Roleplay, Common-sense, Fermi, Counterfactual, Coding, Math, Generic, Knowledge
BELLE_eval 2023-4 | All | ZH | HG & MC | Paper | คนอื่น ๆ
- Publisher: BELLE
- Size: 1000 instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: ME
- Focus: The performance of Chinese language models in following instructions
- Numbers of Evaluation Categories/Subcategories: 9/-
- Evaluation Category: Extract, Closed qa, Rewrite, Summarization, Generation, Classification, Brainstorming, Open qa, Others
CELLO 2023-9 | All | EN | HG | Paper | คนอื่น ๆ
- Publisher: Fudan University et al.
- Size: 523 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: The ability of LLMs to understand complex instructions
- Numbers of Evaluation Categories/Subcategories: 2/10
- Evaluation Category: Complex task description, Complex input
MT-Bench 2023-6 | All | EN | HG | Paper | Github | เว็บไซต์
- Publisher: UC Berkeley et al.
- Size: 80 instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: ME
- Focus: The performance on open-ended question answering
- Numbers of Evaluation Categories/Subcategories: 8/-
- Evaluation Category: Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities
SuperCLUE 2023-7 | Not | ZH | HG & MC | Paper | Github | Website1 | Website2
- Publisher: CLUE et al.
- Size: 3754 instances
- ใบอนุญาต: -
- Question Type: Multi
- Evaluation Method: HE & CE
- Focus: The performance in a Chinese context
- Numbers of Evaluation Categories/Subcategories: 2/-
- Evaluation Category: Open multi-turn open questions, OPT objective questions
Vicuna Evaluation 2023-3 | All | EN | HG | Github | Dataset | เว็บไซต์
- Publisher: LMSYS ORG
- Size: 80 instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: ME
- Focus: The performance on open-ended question answering
- Numbers of Evaluation Categories/Subcategories: 9/-
- Evaluation Category: Generic, Knowledge, Roleplay, Common-sense, Fermi, Counterfactual, Coding, Math, Writing
CHC-Bench 2024-4 | All | ZH | HG & CI | Paper | Github | Dataset | เว็บไซต์
- Publisher: Multimodal Art Projection Research Community et al.
- Size: 214 instances
- License: Apache-2.0
- Question Type: Multi
- Evaluation Method: ME
- Focus: Hard-case Chinese instructions understanding and following
- Numbers of Evaluation Categories/Subcategories: 8/-
- Evaluation Category: Writing, Humanity, Science, Role-playing, Reading Comprehension, Math, Hard Cases, Coding
CIF-Bench 2024-2 | Partial | ZH | HG & CI | Paper | Github | เว็บไซต์
- Publisher: University of Manchester et al.
- Size: 15K instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE & ME
- Focus: Evaluate the zero-shot generalizability of LLMs to the Chinese language
- Numbers of Evaluation Categories/Subcategories: 10/150
- Evaluation Category: Chinese culture, Classification, Code, Commonsense, Creative NLG, Evaluation, Grammar, Linguistic, Motion detection, NER
WildBench 2024-6 | All | EN | HG & CI | Paper | Github | Dataset | เว็บไซต์
- Publisher: Allen Institute for AI et al.
- Size: 1024 instances
- License: AI2 ImpACT License
- Question Type: SQ
- Evaluation Method: ME
- Focus: An automated evaluation framework designed to benchmark LLMs using challenging, real-world user queries.
- Numbers of Evaluation Categories/Subcategories: 11/-
- Evaluation Category: Information seeking, Coding & Debugging, Creative writing, Reasoning, Planning, Math, Editing, Data analysis, Role playing, Brainstorming, Advice seeking
SysBench 2024-8 | All | EN | HG | Paper | Github | ชุดข้อมูล
- Publisher: Peking University et al.
- Size: 500 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: ME
- Focus: Systematically analyze system message following ability
- Numbers of Evaluation Categories/Subcategories: 3/-
- Evaluation Category: Constraint complexity, Instruction misalignment, Multi-turn stability
การสอบ
AGIEval 2023-4 | All | EN & ZH | HG & CI | Paper | Github | ชุดข้อมูล
- Publisher: Microsoft
- Size: 8062 instances
- License: MIT
- Question Type: OQ
- Evaluation Method: CE
- Focus: Human-centric standardized exams
- Numbers of Evaluation Categories/Subcategories: 7/20
- Evaluation Category: Gaokao, SAT, JEC, LSAT, LogiQA, AQuA-RAT, Math
GAOKAO-Bench 2023-5 | All | ZH | HG | Paper | คนอื่น ๆ
- Publisher: Fudan University et al.
- Size: 2811 instances
- License: Apache-2.0
- Question Type: Multi
- Evaluation Method: HE & CE
- Focus: Chinese Gaokao examination
- Numbers of Evaluation Categories/Subcategories: 10/-
- Evaluation Category: Chinese, Mathematics (2 categories), English, Physics, Chemistry, Biology, Politics, History, Geography
M3Exam 2023-6 | All | Multi (9) | HG | Paper | คนอื่น ๆ
- Publisher: Alibaba Group et al.
- Size: 12317 instances
- ใบอนุญาต: -
- Question Type: OQ
- Evaluation Method: CE
- Focus: The comprehensive abilities in a multilingual and multilevel context using real human exam questions
- Numbers of Evaluation Categories/Subcategories: 3/-
- Evaluation Category: Low, Mid, High
เรื่อง
ARB 2023-7 | All | EN | CI | Paper | คนอื่น ๆ
- Publisher: DuckAI et al.
- Size: 1207 instances
- License: MIT
- Question Type: Multi
- Evaluation Method: HE & ME
- Focus: Advanced reasoning problems in multiple fields
- Numbers of Evaluation Categories/Subcategories: 5/-
- Evaluation Category: Mathematics, Physics, Law, MCAT(Reading), MCAT(Science)
C-CLUE 2021-8 | All | ZH | HG | Github | เว็บไซต์
- Publisher: Tianjin University
- ขนาด: -
- License: CC-BY-SA-4.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: Classical Chinese language understanding
- Numbers of Evaluation Categories/Subcategories: 2/-
- Evaluation Category: Named entity recognition, Relation extraction
C-Eval 2023-5 | All | ZH | HG & MC | Paper | Github | Dataset | เว็บไซต์
- Publisher: Shanghai Jiao Tong University
- Size: 13948 instances
- License: CC-BY-NC-SA-4.0
- Question Type: OQ
- Evaluation Method: CE
- Focus: The advanced knowledge and reasoning abilities in a Chinese context
- Numbers of Evaluation Categories/Subcategories: 4/52
- Evaluation Category: STEM, Social Science, Humanity, Other
CG-Eval 2023-8 | All | ZH | HG | Paper | Github | Dataset | เว็บไซต์
- Publisher: LanguageX AI Lab et al.
- Size: 11000 instances
- License: CC-BY-SA-4.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: The generation capabilities of LLMs across various academic disciplines
- Numbers of Evaluation Categories/Subcategories: 6/55
- Evaluation Category: Science and engineering, Humanities and social sciences, Mathematical calculations, Medical practitioner qualification Examination, Judicial Examination, Certfied public accountant examination
LLMEVAL-3 2023-9 | Not | ZH | HG | Github | เว็บไซต์
- Publisher: Fudan University et al.
- Size: 200K instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: ME
- Focus: Subject-specific knowledge capability
- Numbers of Evaluation Categories/Subcategories: 13/-
- Evaluation Category: Philosophy, Economics, Law, Education, Literature, History, Science, Engineering, Agriculture, Medicine, Military science, Management, Fine arts
MMCU 2023-4 | All | ZH | HG | Paper | คนอื่น ๆ
- Publisher: LanguageX AI Lab
- Size: 11845 instances
- ใบอนุญาต: -
- Question Type: OQ
- Evaluation Method: CE
- Focus: Multidisciplinary abilities
- Numbers of Evaluation Categories/Subcategories: 4/25
- Evaluation Category: Medicine, Law, Psychology, Education
MMLU 2020-9 | All | EN | HG | Paper | คนอื่น ๆ
- Publisher: UC Berkeley et al.
- Size: 15908 instances
- License: MIT
- Question Type: OQ
- Evaluation Method: CE
- Focus: Knowledge in academic and professional domains
- Numbers of Evaluation Categories/Subcategories: 4/57
- Evaluation Category: Humanities, Social science, STEM, Other
M3KE 2023-5 | All | ZH | HG | Paper | Github | ชุดข้อมูล
- Publisher: Tianjin University et al.
- Size: 20477 instances
- License: Apache-2.0
- Question Type: OQ
- Evaluation Method: CE
- Focus: Multidisciplinary abilities
- Numbers of Evaluation Categories/Subcategories: 4/71
- Evaluation Category: Arts & Humanities, Social sciences, Natural sciences, Other
SCIBENCH 2023-7 | All | EN | HG | Paper | คนอื่น ๆ
- Publisher: University of California et al.
- Size: 695 instances
- License: MIT
- Question Type: SQ
- Evaluation Method: CE
- Focus: The performance in university-level science and engineering domains
- Numbers of Evaluation Categories/Subcategories: 3/10
- Evaluation Category: Physics, Chemistry, Math
ScienceQA 2022-9 | All | EN | HG | Paper | Github | เว็บไซต์
- Publisher: University of California et al.
- Size: 21208 instances
- License: CC-BY-NC-SA-4.0
- Question Type: OQ
- Evaluation Method: CE
- Focus: Science question-answering ability
- Numbers of Evaluation Categories/Subcategories: 3/26
- Evaluation Category: Natural science, Social science, Language science
TheoremQA 2023-5 | All | EN | HG | Paper | Github | ชุดข้อมูล
- Publisher: University of Waterloo et al.
- Size: 800 instances
- License: MIT
- Question Type: SQ
- Evaluation Method: CE
- Focus: Science subject question-answering ability
- Numbers of Evaluation Categories/Subcategories: 4/39
- Evaluation Category: Mathematics, Physics, Finance, CS & EE
XiezhiBenchmark 2023-6 | All | EN & ZH | HG & MC | Paper | คนอื่น ๆ
- Publisher: Fudan University et al.
- Size: 249587 instances
- License: CC-BY-NC-SA-4.0
- Question Type: OQ
- Evaluation Method: CE
- Focus: Multidisciplinary abilities
- Numbers of Evaluation Categories/Subcategories: 13/516
- Evaluation Category: Medicine, Literature, Economics, Agronomy, Science, Jurisprudence, History, Art studies, Philosophy, Pedagogy, Military science, Management, Engineering
CMMLU 2023-6 | All | ZH | HG | Paper | Github | ชุดข้อมูล
- Publisher: MBZUAI
- Size: 11528 instances
- License: CC-BY-NC-4.0
- Question Type: OQ
- Evaluation Method: CE
- Focus: The knowledge and reasoning capabilities within the Chinese context
- Numbers of Evaluation Categories/Subcategories: 5/67
- Evaluation Category: Social science, STEM, Humanities, China specific, Other
GPQA 2023-11 | All | EN | HG | Paper | Github | ชุดข้อมูล
- Publisher: New York University et al.
- Size: 448 instances
- License: CC-BY-4.0
- Question Type: OQ
- Evaluation Method: CE
- Focus: The disciplinary knowledge in the fields of biology, physics, and chemistry
- Numbers of Evaluation Categories/Subcategories: 3/16
- Evaluation Category: Biology, Physics, Chemistry
CMATH 2023-6 | All | ZH | HG | Paper | Github | ชุดข้อมูล
- Publisher: Xiaomi AI Lab
- Size: 1698 instances
- License: CC-BY-4.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: Elementary school math word problems
- Numbers of Evaluation Categories/Subcategories: 6/-
- Evaluation Category: Grades 1 to 6 in elementary school
FineMath 2024-3 | Not | ZH | HG | กระดาษ
- Publisher: Tianjin University et al.
- Size: 1584 instances
- ใบอนุญาต: -
- Question Type: Multi
- Evaluation Method: -
- Focus: Elementary school math word problems
- Numbers of Evaluation Categories/Subcategories: 6/17
- Evaluation Category: Number & Operations, Measurement, Data analysis & Probability, Algebra, Geometry, Others
WYWEB 2023-7 | All | ZH | HG & CI | Paper | Github | Dataset | เว็บไซต์
- Publisher: Zhejiang University et al.
- Size: 467200 instances
- ใบอนุญาต: -
- Question Type: Multi
- Evaluation Method: CE
- Focus: Classical Chinese
- Numbers of Evaluation Categories/Subcategories: 5/9
- Evaluation Category: Sequence labeling, Sentence classification, Token similarity, Reading comprehension, Translation
ACLUE 2023-10 | All | ZH | HG & CI | Paper | Github | ชุดข้อมูล
- Publisher: Mohamed bin Zayed University of Artificial Intelligence
- Size: 4967 instances
- License: CC-BY-NC-SA-4.0
- Question Type: OQ
- Evaluation Method: CE
- Focus: Classical Chinese language understanding
- Numbers of Evaluation Categories/Subcategories: 5/15
- Evaluation Category: Lexical, Syntactic, Semantic, Inference, Knowledge
SciKnowEval 2024-6 | All | EN | HG & CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: Zhejiang University et al.
- Size: 50048 instances
- ใบอนุญาต: -
- Question Type: Multi
- Evaluation Method: CE & ME
- Focus: Evaluate the capabilities of LLMs in handling scientific knowledge
- Numbers of Evaluation Categories/Subcategories: 2/49
- Evaluation Category: Biology, Chemistry
C 3 Bench 2024-5 | All | ZH | HG & CI | กระดาษ
- Publisher: South China University of Technology
- Size: 50000 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Classical Chinese
- Numbers of Evaluation Categories/Subcategories: 5/-
- Evaluation Category: Classification, Retrieval, NER, Punctuation, Translation
ArabicMMLU 2024-8 | All | AR | HG | Paper | Github | ชุดข้อมูล
- Publisher: MBZUAI et al.
- Size: 14575 instances
- License: CC-BY-NC-SA-4.0
- Question Type: OQ
- Evaluation Method: CE
- Focus: Multi-task language understanding benchmark for the Arabic language
- Numbers of Evaluation Categories/Subcategories: 5/40
- Evaluation Category: STEM, Social science, Humanities, Language, Other
PersianMMLU 2024-4 | All | FA | HG | Paper | ชุดข้อมูล
- Publisher: Raia Center for Artificial Intelligence Research et al.
- Size: 20192 instances
- License: CC-ND
- Question Type: OQ
- Evaluation Method: CE
- Focus: Facilitate the rigorous evaluation of LLMs that support the Persian language
- Numbers of Evaluation Categories/Subcategories: 5/38
- Evaluation Category: Social science, Humanities, Natural science, Mathematics, Other
TMMLU+ 2024-3 | All | ZH | HG & CI | Paper | ชุดข้อมูล
- Publisher: iKala AI Lab et al.
- Size: 22690 instances
- License: MIT
- Question Type: OQ
- Evaluation Method: CE
- Focus: Evaluate the language understanding capabilities in Traditional Chinese
- Numbers of Evaluation Categories/Subcategories: 4/66
- Evaluation Category: STEM, Social sciences, Humanities, Other
NLU
CLUE 2020-12 | All | ZH | CI | Paper | คนอื่น ๆ
- Publisher: CLUE team
- Size: 9 datasets
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Natural language understanding capability
- Numbers of Evaluation Categories/Subcategories: 3/9
- Evaluation Category: Single-sentence tasks, Sentence pair tasks, Machine reading comprehension tasks
CUGE 2021-12 | All | EN & ZH | CI | Paper | เว็บไซต์
- Publisher: Tsinghua University et al.
- Size: 33.4M instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Natural language understanding capability
- Numbers of Evaluation Categories/Subcategories: 7/18
- Evaluation Category: Language understanding (word-sentence or discourse level), Information acquisition and question answering, Language generation, Conversational interaction, Multilingual, Mathematical reasoning
GLUE 2018-11 | All | EN | CI | Paper | Github | เว็บไซต์
- Publisher: New York University et al.
- Size: 9 datasets
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Natural language understanding capability
- Numbers of Evaluation Categories/Subcategories: 3/9
- Evaluation Category: Single-sentence tasks, Similarity and paraphrase tasks, Inference tasks
SuperGLUE 2019-5 | All | EN | CI | Paper | เว็บไซต์
- Publisher: New York University et al.
- Size: 8 datasets
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Natural language understanding capability
- Numbers of Evaluation Categories/Subcategories: 4/8
- Evaluation Category: Word sense disambiguation, Natural language inference, Coreference resolution, Question answering
MCTS 2023-6 | All | ZH | HG | Paper | คนอื่น ๆ
- Publisher: Beijing Language and Culture University
- Size: 723 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Text simplification ability
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Text simplification
RAFT 2021-9 | All | EN | HG & CI | Paper | Dataset | เว็บไซต์
- Publisher: Ought et al.
- Size: 28712 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Text classification ability
- Numbers of Evaluation Categories/Subcategories: 1/11
- Evaluation Category: Text classification
SentEval 2018-5 | All | EN | CI | Paper | คนอื่น ๆ
- Publisher: Facebook Artificial Intelligence Research
- Size: 28 datasets
- License: BSD
- Question Type: SQ
- Evaluation Method: CE
- Focus: The quality of universal sentence representations
- Numbers of Evaluation Categories/Subcategories: 1/21
- Evaluation Category: Universal sentence representations
LeSC 2024-5 | All | EN & ZH | HG | Paper | Github | ชุดข้อมูล
- Publisher: Tsinghua University et al.
- Size: 600 instances
- License: MIT
- Question Type: OQ
- Evaluation Method: CE
- Focus: The genuine linguistic-cognitive skills of LLMs
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Polysemy
KoBEST 2022-10 | All | KO | CI | Paper | ชุดข้อมูล
- Publisher: University of Oxford et al.
- Size: 5 datasets
- License: CC-BY-SA-4.0
- Question Type: OQ
- Evaluation Method: CE
- Focus: Korean balanced evaluation of significant tasks
- Numbers of Evaluation Categories/Subcategories: 5/-
- Evaluation Category: KB-BoolQ, KB-COPA, KB-WiC, KB-HellaSwag, KB-SentiNeg
SarcasmBench 2024-8 | All | EN | CI | กระดาษ
- Publisher: Tianjin University et al.
- Size: 58347 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Evaluate LLMs on sarcasm understanding
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Sarcasm understanding
Reasoning
Chain-of-Thought Hub 2023-5 | All | EN | CI | Paper | คนอื่น ๆ
- Publisher: University of Edinburgh et al.
- ขนาด: -
- License: MIT
- Question Type: SQ
- Evaluation Method: CE
- Focus: The multi-step reasoning capabilities
- Numbers of Evaluation Categories/Subcategories: 6/8
- Evaluation Category: Math, Science, Symbolic, Knowledge, Coding, Factual
Choice-75 2023-9 | All | EN | HG & CI & MC | Paper | คนอื่น ๆ
- Publisher: University of Pittsburgh et al.
- Size: 650 instances
- ใบอนุญาต: -
- Question Type: OQ
- Evaluation Method: CE
- Focus: Predict decisions based on descriptive scenarios
- Numbers of Evaluation Categories/Subcategories: 4/-
- Evaluation Category: Easy, Medium, Hard, N/A
NeuLR 2023-6 | All | EN | CI | Paper | Github | ชุดข้อมูล
- Publisher: Xi'an Jiaotong University et al.
- Size: 3000 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Logical reasoning capabilities
- Numbers of Evaluation Categories/Subcategories: 3/-
- Evaluation Category: Deductive, Inductive, Abductive
TabMWP 2022-9 | All | EN | HG | Paper | Github | เว็บไซต์
- Publisher: University of California et al.
- Size: 38431 instances
- License: CC-BY-NC-SA-4.0
- Question Type: Multi
- Evaluation Method: CE
- Focus: Mathematical reasoning ability involving both textual and tabular information
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Mathematical reasoning and table QA
LILA 2022-10 | All | EN | CI | Paper | Github | ชุดข้อมูล
- Publisher: Arizona State Univeristy et al.
- Size: 317262 instances
- License: CC-BY-4.0
- Question Type: Multi
- Evaluation Method: CE
- Focus: Mathematical reasoning across diverse tasks
- Numbers of Evaluation Categories/Subcategories: 4/23
- Evaluation Category: Math ability, Language, Knowledge, Format
MiniF2F_v1 2021-9 | All | EN | HG & CI | Paper | คนอื่น ๆ
- Publisher: Ecole Polytechnique et al.
- Size: 488 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: The performance on formal Olympiad-level mathematics problem statements
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Math
GameBench 2024-6 | All | EN | HG | Paper | Github | ชุดข้อมูล
- Publisher: Olin College of Engineering et al.
- Size: 9 Games
- License: CC-BY
- Question Type: SQ
- Evaluation Method: CE
- Focus: Evaluate strategic reasoning abilities of LLM agents
- Numbers of Evaluation Categories/Subcategories: 6/9
- Evaluation Category: Abstract Strategy, Non-Deterministic, Hidden Information, Language Communication, Social Deduction, Cooperation
TableBench 2024-8 | All | EN | HG & CI & MC | Paper | Github | Dataset | เว็บไซต์
- Publisher: Beihang University et al.
- Size: 886 instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: Table question answering (TableQA) capabilities
- Numbers of Evaluation Categories/Subcategories: 4/18
- Evaluation Category: Fact checking, Numerical reasoning, Data analysis, Visualization
ความรู้
ALCUNA 2023-10 | All | EN | HG | Paper | Github | Dataset
- Publisher: Peking University
- Size: 84351 instances
- License: MIT
- Question Type: Multi
- Evaluation Method: CE
- Focus: Assess the ability of LLMs to respond to new knowledge
- Numbers of Evaluation Categories/Subcategories: 3/-
- Evaluation Category: Knowledge understanding, Knowledge differentiation, Knowledge association
KoLA 2023-6 | Partial | EN | HG & CI | Paper | Github | เว็บไซต์
- Publisher: Tsinghua University
- Size: 2138 instances
- License: GPL-3.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: The ability to grasp and utilize world knowledge
- Numbers of Evaluation Categories/Subcategories: 4/19
- Evaluation Category: Knowledge memorization, Knowledge understanding, Knowledge applying, Knowledge creating
LLMEVAL-2 2023-7 | All | ZH | HG | คนอื่น ๆ
- Publisher: Fudan University et al.
- Size: 480 instances
- ใบอนุญาต: -
- Question Type: Multi
- Evaluation Method: HE & ME
- Focus: Knowledge capability
- Numbers of Evaluation Categories/Subcategories: 12/-
- Evaluation Category: Computer science, Economics, Foreign languages, Law, Mathematics, Medicine, Optics, Physics, Social sciences, Chinese language and literature, Chemistry, Life sciences
SocKET 2023-5 | All | EN | CI | Paper | คนอื่น ๆ
- Publisher: University of Michigan et al.
- Size: 2616342 instances
- License: CC-BY-4.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: Mastery of social knowledge
- Numbers of Evaluation Categories/Subcategories: 4/58
- Evaluation Category: Classification, Regression, Pair-wise comparison, Span identification
LMExamQA 2023-6 | All | EN | MC | Paper | เว็บไซต์
- Publisher: Tsinghua University et al.
- Size: 10090 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: ME
- Focus: The performance on open-ended question answering
- Numbers of Evaluation Categories/Subcategories: 3/25
- Evaluation Category: Knowledge memorization, Knowledge comprehension, Knowledge analysis
DebateQA 2024-8 | All | EN | HG & CI & MC | Paper | Github | ชุดข้อมูล
- Publisher: Tsinghua Universty et al.
- Size: 2941 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: ME
- Focus: Evaluate the comprehensiveness of perspectives and assess whether the LLM acknowledges the question's debatable nature
- Numbers of Evaluation Categories/Subcategories: 2/-
- Evaluation Category: Perspective diversity, Dispute awareness
Long Text
L-Eval 2023-7 | All | EN | HG & CI | Paper | Github | ชุดข้อมูล
- Publisher: Fudan University et al.
- Size: 2043 instances
- License: GPL-3.0
- Question Type: SQ
- Evaluation Method: HE & CE & ME
- Focus: Long text task capability
- Numbers of Evaluation Categories/Subcategories: 1/18
- Evaluation Category: Long text task
LongBench 2023-8 | All | EN & ZH | CI | Paper | Github | Dataset
- Publisher: Tsinghua University et al.
- Size: 4750 instances
- License: MIT
- Question Type: SQ
- Evaluation Method: CE
- Focus: Long text task capability
- Numbers of Evaluation Categories/Subcategories: 6/21
- Evaluation Category: Single-doc QA, Multi-doc QA, Summarization, Few-shot learning, Synthetic tasks, Code completion
LongEval 2023-6 | All | EN | HG | Github | เว็บไซต์
- Publisher: LMSYS
- ขนาด: -
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: Long text task capability
- Numbers of Evaluation Categories/Subcategories: 2/-
- Evaluation Category: Coarse-grained topic retrieval, Fine-grained line retrieval
InfiniteBench 2023-11 | All | EN & ZH | HG & CI & MC | Github | Dataset
- Publisher: Tsinghua University et al.
- Size: 3932 instances
- License: Apache-2.0
- Question Type: Multi
- Evaluation Method: -
- Focus: Long text task capability
- Numbers of Evaluation Categories/Subcategories: 5/12
- Evaluation Category: Mathematics, Code, Dialogue, Books, Retrieval
ZeroSCROLLS 2023-5 | All | EN | HG & CI | Paper | Github | Dataset | เว็บไซต์
- Publisher: Tel Aviv University et al.
- Size: 4378 instances
- License: MIT
- Question Type: Multi
- Evaluation Method: CE
- Focus: Long text task capability
- Numbers of Evaluation Categories/Subcategories: 3/10
- Evaluation Category: Summarization, Question Answering, Aggregation
LooGLE 2023-11 | All | EN | HG & CI & MC | Paper | Github | Dataset
- Publisher: BIGAI et al.
- Size: 6448 instances
- License: CC-BY-SA-4.0
- Question Type: SQ
- Evaluation Method: HE & CE & ME
- Focus: Long text task capability
- Numbers of Evaluation Categories/Subcategories: 2/4
- Evaluation Category: Long dependency tasks, Short dependency tasks
NAH (Needle-in-a-Haystack) 2023-11 | All | EN | - คนอื่น ๆ
- Publisher: gkamradt et al.
- ขนาด: -
- License: MIT
- Question Type: SQ
- Evaluation Method: ME
- Focus: Long text task capability
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Long text task
CLongEval 2024-3 | All | ZH | HG & CI & MC | Paper | Github | Dataset
- Publisher: The Chinese University of Hong Kong et al.
- Size: 7267 instances
- License: MIT
- Question Type: SQ
- Evaluation Method: CE
- Focus: Long text task capability
- Numbers of Evaluation Categories/Subcategories: 7/-
- Evaluation Category: Long story QA, Long conversation memory, Long story summarization, Stacked news labeling, Stacked typo detection, Key-passage retrieval, Table querying
Counting-Stars 2024-3 | All | ZH | HG | Paper | Github | Dataset
- Publisher: Tencent MLPD
- ขนาด: -
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Long text task capability
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Long text task
NeedleBench 2024-7 | All | EN & ZH | HG & CI | Paper | คนอื่น ๆ
- Publisher: Shanghai AI Laboratory et al.
- ขนาด: -
- ใบอนุญาต: -
- Question Type: Multi
- Evaluation Method: CE
- Focus: Assess bilingual long-context capabilities
- Numbers of Evaluation Categories/Subcategories: 3/-
- Evaluation Category: Single-retrieval, Multi-retrieval, Multi-reasoning
เครื่องมือ
API-Bank 2023-4 | All | EN & PL | HG & MC | Paper | คนอื่น ๆ
- Publisher: Alibaba DAMO Academy et al.
- Size: 264 dialogues
- License: MIT
- Question Type: SQ
- Evaluation Method: HE & CE
- Focus: Plan step-by-step API calls, retrieve relevant APIs, and correctly execute API calls to meet human needs
- Numbers of Evaluation Categories/Subcategories: 3/-
- Evaluation Category: Call, Retrieval+Call, Plan+Retrieval+Call
APIBench 2023-5 | All | EN & PL | HG & MC | Paper | Github | Dataset | เว็บไซต์
- Publisher: UC Berkeley et al.
- Size: 16450 instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: The reasoning ability for calling APIs
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: API call
ToolBench 2023-5 | All | EN | HG & CI | Paper | คนอื่น ๆ
- Publisher: SambaNova Systems et al.
- Size: 795 instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: The enhancement in tool manipulation for real-world software tasks
- Numbers of Evaluation Categories/Subcategories: 8/-
- Evaluation Category: Open weather, The cat API, Home search, Trip booking, Google sheets, Virtual home, Web shop, Tabletop
ToolEyes 2024-1 | All | EN | HG | Paper | Github | ชุดข้อมูล
- Publisher: Fudan University
- Size: 382 instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: CE & ME
- Focus: The LLMs' tool learning capabilities in authentic scenarios
- Numbers of Evaluation Categories/Subcategories: 7/41
- Evaluation Category: Text generation, Data understanding, Real-time search, Application manipulation, Personal life, Information retrieval, Financial transactions
ตัวแทน
รหัส
BIRD 2023-5 | All | EN & PL | HG & CI & MC | Paper | Github | Dataset | เว็บไซต์
- Publisher: The University of Hong Kong et al.
- Size: 12751 instances
- License: CC-BY-NC-4.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: Text-to-SQL parsing
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Text-SQL
CodeXGLUE 2021-2 | All | EN & PL | CI | Paper | Github | Dataset
- Publisher: Peking University et al.
- Size: 4.12M instances
- License: C-UDA
- Question Type: SQ
- Evaluation Method: CE
- Focus: Program understanding and generation tasks
- Numbers of Evaluation Categories/Subcategories: 4/10
- Evaluation Category: Code-Code, Text-Code, Code-Text, Text-to-Text
DS-1000 2022-11 | All | EN & PL | HG | Paper | Github | Dataset | เว็บไซต์
- Publisher: The University of Hong Kong et al.
- Size: 1000 instances
- License: CC-BY-SA-4.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: Code generation
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Code generation
HumanEval 2021-7 | All | EN & PL | HG | Paper | คนอื่น ๆ
- Publisher: OpenAI et al.
- Size: 164 instances
- License: MIT
- Question Type: SQ
- Evaluation Method: CE
- Focus: The correctness of problem-solving abilities in the context of program synthesis
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Code generation
HumanEvalPack 2023-8 | All | EN & PL | HG & CI | Paper | Github | ชุดข้อมูล
- Publisher: Bigcode
- Size: 984 instances
- License: MIT
- Question Type: SQ
- Evaluation Method: CE
- Focus: The correctness of problem-solving abilities in the context of program synthesis
- Numbers of Evaluation Categories/Subcategories: 3/-
- Evaluation Category: HumanEvalFix, HumanEvalExplain, HumanEvalSynthesize
MTPB 2022-3 | All | EN & PL | HG | Paper | Github | Dataset
- Publisher: Salesforce Research
- Size: 115 instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: Multi-turn Programming
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Code generation
ODEX 2022-12 | All | Multi & PL | HG & CI | Paper | คนอื่น ๆ
- Publisher: Carnegie Mellon University et al.
- Size: 945 instances
- License: CC-BY-SA-4.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: Natural language to Python code generation
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Code generation
APPS 2021-5 | All | EN & PL | HG | Paper | Github | Dataset
- Publisher: UC Berkeley et al.
- Size: 10000 instances
- License: MIT
- Question Type: SQ
- Evaluation Method: CE
- Focus: The ability to take an arbitrary natural language specification and generate satisfactory Python code
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Code generation
DomainEval 2024-8 | All | EN & PL | HG & CI & MC | Paper | Github | Dataset | เว็บไซต์
- Publisher: Chinese Academy of Sciences et al.
- Size: 5892 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Evaluate LLMs' coding capabilities thoroughly
- Numbers of Evaluation Categories/Subcategories: 6/-
- Evaluation Category: Computation, Network, Basic operation, System, Visualization, Cryptography
OOD
กฎ
LAiW 2023-10 | Partial | ZH | CI | Paper | คนอื่น ๆ
- Publisher: Sichuan University et al.
- ขนาด: -
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Legal capabilities
- Numbers of Evaluation Categories/Subcategories: 3/13
- Evaluation Category: Basic legal NLP, Basic legal application, Complex legal application
LawBench 2023-9 | All | ZH | HG & CI | Paper | Github | Dataset
- Publisher: Nanjing University et al.
- ขนาด: -
- License: Apache-2.0
- Question Type: Multi
- Evaluation Method: CE
- Focus: Legal capabilities
- Numbers of Evaluation Categories/Subcategories: 3/20
- Evaluation Category: Legal knowledge memorization, Legal knowledge understanding, Legal knowledge applying
LegalBench 2023-8 | All | EN | HG & CI | Paper | Github | Dataset | เว็บไซต์
- Publisher: Stanford University et al.
- Size: 90417 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: HE & CE
- Focus: Legal reasoning
- Numbers of Evaluation Categories/Subcategories: 6/162
- Evaluation Category: Issue-spotting, Rule-recall, Rule-application, Rule-conclusion, Interpretation, Rhetorical-understanding
LexGLUE 2021-10 | All | EN | CI | Paper | คนอื่น ๆ
- Publisher: University of Copenhagen et al.
- Size: 237014 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Legal capabilities
- Numbers of Evaluation Categories/Subcategories: 3/-
- Evaluation Category: Multi-label classification, Multi-class classification, Multiple choice QA
LEXTREME 2023-1 | All | Multi (24) | CI | Paper | คนอื่น ๆ
- Publisher: University of Bern et al.
- Size: 3508603 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Legal capabilities
- Numbers of Evaluation Categories/Subcategories: 18/-
- Evaluation Category: Brazilian court decisions, German argument mining, Greek legal code, Swiss judgment prediction, etc.
SCALE 2023-6 | All | Multi (5) | HG & CI | Paper | Dataset
- Publisher: University of Bern et al.
- Size: 1.86M instances
- License: CC-BY-SA
- Question Type: SQ
- Evaluation Method: CE
- Focus: Legal multidimensional abilities
- Numbers of Evaluation Categories/Subcategories: 4/-
- Evaluation Category: Processing long documents, Utilizing domain specific knowledge, Multilingual understanding, Multitasking
ArabLegalEval 2024-8 | All | AR | HG & CI & MC | Paper | Github | Dataset
- Publisher: THIQAH et al.
- Size: 37853 instances
- ใบอนุญาต: -
- Question Type: Multi
- Evaluation Method: ME
- Focus: Assess the Arabic legal knowledge of LLMs
- Numbers of Evaluation Categories/Subcategories: 3/-
ทางการแพทย์
CBLUE 2022-5 | All | ZH | HG & CI | Paper | คนอื่น ๆ
- Publisher: Zhejiang University et al.
- Size: 195820 instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: Chinese biomedical language understanding
- Numbers of Evaluation Categories/Subcategories: 5/8
- Evaluation Category: Information extraction from the medical text, normalization of the medical term, medical text classification, medical sentence similarity estimation, medical QA
CMB 2023-8 | All | ZH | HG | Paper | Github | Dataset | เว็บไซต์
- Publisher: The Chinese University of Hong Kong et al.
- Size: 281047 instances
- License: Apache-2.0
- Question Type: Multi
- Evaluation Method: HE & CE & ME
- Focus: The performance of LLMs in the field of medicine
- Numbers of Evaluation Categories/Subcategories: 2/7
- Evaluation Category: CMB-Exam, CMB-Clin
HuaTuo26M-test 2023-5 | All | ZH | CI | Paper | Github | Dataset
- Publisher: The Chinese University of Hong Kong et al.
- Size: 6000 instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: Understand and generate complex medical language
- Numbers of Evaluation Categories/Subcategories: 3/-
- Evaluation Category: Medical consultant records, Encyclopedias, Knowledge bases
MultiMedQA 2022-12 | All | EN | HG & CI | Paper | ชุดข้อมูล
- Publisher: Google Research et al.
- Size: 212822 instances
- ใบอนุญาต: -
- Question Type: Multi
- Evaluation Method: HE & CE
- Focus: The performance in medical and clinical applications
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Medical question answering
PromptCBLUE 2023-4 | All | ZH | CI | คนอื่น ๆ
- Publisher: East China Normal University et al.
- Size: 20640 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: The performance in Chinese medical scenarios
- Numbers of Evaluation Categories/Subcategories: 16/-
- Evaluation Category: Medical named entity recognition, Medical entity relation extraction, Medical event extraction, etc.
QiZhenGPT_eval 2023-5 | All | ZH | HG | Github | Dataset
- Publisher: Zhejiang University et al.
- Size: 94 instances
- License: GPL-3.0
- Question Type: SQ
- Evaluation Method: HE
- Focus: Indications for use of drugs
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Drug indication question answering
CLUE 2024-4 | Partical | EN | HG & CI & MC | Paper | คนอื่น ๆ
- Publisher: University Hospital Essen et al.
- ขนาด: -
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Real-world clinical tasks
- Numbers of Evaluation Categories/Subcategories: 6/-
- Evaluation Category: MeDiSumQA, MeDiSumCode, MedNLI, MeQSum, Problem Summary, LongHealth
การเงิน
BBF-CFLEB 2023-2 | All | ZH | HG & CI | Paper | Github | เว็บไซต์
- Publisher: Fudan University et al.
- Size: 11327 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Language understanding and generation tasks in Chinese financial natural language processing
- Numbers of Evaluation Categories/Subcategories: 6/-
- Evaluation Category: FinNL, FinNA, FinRE, FinFE, FinQA, FinNSP
FinancelQ 2023-9 | All | ZH | HG & MC | คนอื่น ๆ
- Publisher: Du Xiaoman
- Size: 7173 instances
- License: CC-BY-NC-SA-4.0
- Question Type: OQ
- Evaluation Method: CE
- Focus: The knowledge and reasoning abilities in financial contexts
- Numbers of Evaluation Categories/Subcategories: 10/36
- Evaluation Category: Bank, Fund, Securities, Futures and derivatives, CICE, Actuarial science, Financial planning, CPA, Taxation, Economics
FinEval 2023-8 | All | ZH | HG | Paper | Github | Dataset | เว็บไซต์
- Publisher: Shanghai University of Finance and Economics
- Size: 4661 instances
- License: CC-BY-NC-SA-4.0
- Question Type: OQ
- Evaluation Method: CE
- Focus: The performance in the financial domain knowledge
- Numbers of Evaluation Categories/Subcategories: 4/34
- Evaluation Category: Finance, Economy, Accounting, Certificate
FLUE 2022-10 | All | EN | CI | Paper | เว็บไซต์
- Publisher: Georgia Institute of Technology et al.
- Size: 26292 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: NLP tasks in the financial domain
- Numbers of Evaluation Categories/Subcategories: 5/6
- Evaluation Category: Financial sentiment analysis, News headline classification, Named entity recognition, Structure boundary detection, Question answering
FinBen 2024-2 | All | EN | CI | Paper | คนอื่น ๆ
- Publisher: The Fin AI et al.
- Size: 69805 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: NLP tasks in the financial domain
- Numbers of Evaluation Categories/Subcategories: 3/6
- Evaluation Category: Foundamental tasks, Advanced cognitive engagement, General intelligence
Social Norms
CrowS-Pairs 2020-11 | All | EN | HG & CI | Paper | คนอื่น ๆ
- Publisher: New York University
- Size: 1508 instances
- License: CC-SA-4.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: The presence of cultural biases and stereotypes in pretrained language models
- Numbers of Evaluation Categories/Subcategories: 9/-
- Evaluation Category: Race, Gender, Sexual orientation, Religion, Age, Nationality, Disability, Physical appearance, Occupation
SafetyBench 2023-9 | All | EN & ZH | HG & CI & MC | Paper | Github | Dataset | เว็บไซต์
- Publisher: Tsinghua University et al.
- Size: 11435 instances
- License: MIT
- Question Type: OQ
- Evaluation Method: CE
- Focus: The safety of LLMs
- Numbers of Evaluation Categories/Subcategories: 7/-
- Evaluation Category: Offensiveness, Unfairness and bias, Physical health, Mental Health, Illegal activities, Ethics and morality, Privacy and Property
Safety-Prompts 2023-4 | Partial | ZH | MC | Paper | Github | Dataset | เว็บไซต์
- Publisher: Tsinghua University et al.
- Size: 100K instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: HE & ME
- Focus: The safety of LLMs
- Numbers of Evaluation Categories/Subcategories: 2/13
- Evaluation Category: Typical security scenarios, Instruction attack
SuperCLUE-Safety 2023-9 | Not | ZH | - Github | เว็บไซต์
- Publisher: CLUEbenchmark
- Size: 4912 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: ME
- Focus: The safety of LLMs
- Numbers of Evaluation Categories/Subcategories: 3/20+
- Evaluation Category: Traditional security category, Responsible artificial intelligence, Instruction attacks
TRUSTGPT 2023-6 | All | EN | CI | Paper | คนอื่น ๆ
- Publisher: Sichuan University et al.
- Size: 2000 instances
- License: MIT
- Question Type: SQ
- Evaluation Method: CE
- Focus: The performance in toxicity, bias, and value alignment
- Numbers of Evaluation Categories/Subcategories: 3/-
- Evaluation Category: Toxicity, Bias, Value-alignment
Factuality
FACTOR 2023-7 | Partial | EN | HG & CI & MC | Paper | คนอื่น ๆ
- Publisher: AI21 Labs
- Size: 4030 instances
- License: MIT
- Question Type: OQ
- Evaluation Method: CE
- Focus: The factuality of LLMs
- Numbers of Evaluation Categories/Subcategories: 2/-
- Evaluation Category: Wiki, News
FActScore 2023-5 | All | EN | HG & MC | Paper | คนอื่น ๆ
- Publisher: University of Washington et al.
- Size: 500 instances
- License: MIT
- Question Type: SQ
- Evaluation Method: HE & ME
- Focus: The factuality of LLMs
- Numbers of Evaluation Categories/Subcategories: 7/-
- Evaluation Category: Single-sentence contradiction (words or beyond words), Page-level contradiction, Subjective, Fact is irrelevant, Wiki is inconsistent & wrong, Annotation error
FactualityPrompt 2022-6 | All | EN | CI | Paper | คนอื่น ๆ
- Publisher: Hong Kong University of Science and Technology et al.
- Size: 16000 instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: The factuality of LLMs
- Numbers of Evaluation Categories/Subcategories: 2/-
- Evaluation Category: Factual prompts, Nonfactual prompts
FreshQA 2023-10 | All | EN | HG | Paper | คนอื่น ๆ
- Publisher: Google et al.
- Size: 600 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: HE
- Focus: The factuality of LLMs
- Numbers of Evaluation Categories/Subcategories: 4/-
- Evaluation Category: Never-changing, Slow-changing, Fast-changing, False-premise
HalluQA 2023-10 | All | ZH | HG & MC | Paper | คนอื่น ๆ
- Publisher: Fudan University et al.
- Size: 450 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: ME
- Focus: The factuality of LLMs
- Numbers of Evaluation Categories/Subcategories: 3/-
- Evaluation Category: Misleading, Misleading-hard, Knowledge
HaluEval 2023-5 | All | EN | HG & CI & MC | Paper | Github | Dataset
- Publisher: Renmin University of China et al.
- Size: 35000 instances
- License: MIT
- Question Type: SQ
- Evaluation Method: CE
- Focus: The factuality of LLMs
- Numbers of Evaluation Categories/Subcategories: 3/-
- Evaluation Category: QA, Dialogue, Summarization
TruthfulQA 2022-5 | All | EN | HG | Paper | คนอื่น ๆ
- Publisher: University of Oxford et al.
- Size: 817 instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: CE & ME
- Focus: The factuality of LLMs
- Numbers of Evaluation Categories/Subcategories: 38/-
- Evaluation Category: Health, Law, Conspiracies, Fiction, Misconceptions, Paranormal, Economics, Biology, Language, Indexical etc.
UHGEval 2023-11 | All | ZH | HG & MC | Paper | Github | Dataset
- Publisher: Renmin University of China et al.
- Size: 5141 instances
- License: Apache-2.0
- Question Type: Multi
- Evaluation Method: CE
- Focus: The factuality of LLMs
- Numbers of Evaluation Categories/Subcategories: 3/4
- Evaluation Category: Discriminative, Selective, Generative
HaluEval-Wild 2024-3 | Not | EN | HG & CI & MC | กระดาษ
- Publisher: Carnegie Mellon University
- Size: 500 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: -
- Focus: The factuality of LLMs
- Numbers of Evaluation Categories/Subcategories: 5/-
- Evaluation Category: Out-of-scope information, Complex reasoning, Inappropriate content, Beyond-modality interaction, Confused / Erroneous queries
RealTime QA 2022-7 | All | EN | HG | Paper | Github | Dataset | เว็บไซต์
- Publisher: Toyota Technological Institute et al.
- ขนาด: -
- ใบอนุญาต: -
- Question Type: Multi
- Evaluation Method: CE
- Focus: The factuality of LLMs
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Latest knowledge Q&A
ChineseFactEval 2023-9 | All | ZH | HG & MC | Github | Dataset | เว็บไซต์
- Publisher: Shanghai Jiao Tong University et al.
- Size: 125 instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: -
- Focus: The factuality of LLMs
- Numbers of Evaluation Categories/Subcategories: 7/-
- Evaluation Category: General domain, Scientific research, Medical, Law, Finance, Math, Chinese modern history
HalluDial 2024-6 | All | EN | CI & MC | Paper | Github | Dataset
- Publisher: BAAI et al.
- Size: 146856 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: HE & CE & ME
- Focus: Automatic dialogue-level hallucination evaluation
- Numbers of Evaluation Categories/Subcategories: 2/-
- Evaluation Category: Hallucination detection, Hallucination localization and explanation
การประเมิน
FairEval 2023-5 | All | EN | CI | Paper | Github | ชุดข้อมูล
- Publisher: Peking University et al.
- Size: 80 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: The performance in determining the quality of output content from different models
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Evaluate the quality of answers
LLMEval2 2023-8 | All | Multi | CI | Paper | Github | Dataset
- Publisher: Chinese Academy of Sciences et al.
- Size: 2533 instances
- License: MIT
- Question Type: SQ
- Evaluation Method: CE
- Focus: The performance in determining the quality of output content from different models
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Evaluate the quality of answers
PandaLM_testset 2023-4 | All | EN | HG & MC | Paper | คนอื่น ๆ
- Publisher: Peking University et al.
- Size: 999 instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: The performance in determining the quality of output content from different models
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Evaluate the quality of answers
Multitask
BBH 2022-10 | All | EN | CI | Paper | คนอื่น ๆ
- Publisher: Google Research et al.
- Size: 6511 instances
- License: MIT
- Question Type: Multi
- Evaluation Method: CE
- Focus: Challenging tasks that have proven difficult for prior language model evaluations
- Numbers of Evaluation Categories/Subcategories: 23/27
- Evaluation Category: Boolean expressions, Causal judgement, Date understanding, Disambiguation QA, etc.
BIG-Bench 2022-6 | All | Multi | HG & CI | Paper | คนอื่น ๆ
- Publisher: Google et al.
- ขนาด: -
- License: Apache-2.0
- Question Type: Multi
- Evaluation Method: CE
- Focus: The capabilities and limitations of language models
- Numbers of Evaluation Categories/Subcategories: 95/204
- Evaluation Category: Linguistics, Child development, Mathematics, Common sense reasoning, Biology, etc.
CLEVA 2023-8 | All | ZH | HG & CI | Paper | Github | เว็บไซต์
- Publisher: The Chinese University of Hong Kong et al.
- Size: 370K instances
- License: CC-BY-NC-ND-4.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: The performance of LLMs across various dimensions
- Numbers of Evaluation Categories/Subcategories: 2/31
- Evaluation Category: Ability, Application
CLiB 2023-6 | All | ZH | - คนอื่น ๆ
- Publisher: jeinlee1991
- Size: 90 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: HE
- Focus: Multidimensional capabilities
- Numbers of Evaluation Categories/Subcategories: 4/-
- Evaluation Category: Classification, Information extraction, Reading comprehension, Tabular question answering
decaNLP 2018-6 | All | EN | CI | Paper | คนอื่น ๆ
- Publisher: Salesforce Research
- Size: 2010693 instances
- License: BSD-3-Clause
- Question Type: SQ
- Evaluation Method: CE
- Focus: Multitask natural language processing capabilities
- Numbers of Evaluation Categories/Subcategories: 10/-
- Evaluation Category: Question answering, Machine translaion, Summarization, Natural language inference, Sentiment analysis, Semantic role labeling, Zero-shot relation extraction, Goal-oriented dialogue, Semantic parsing, Pronoun resolution
FlagEval 2023-6 | Partial | EN & ZH | HG & CI | Github | เว็บไซต์
- Publisher: BAAI et al.
- Size: 84433 instances
- ใบอนุญาต: -
- Question Type: Multi
- Evaluation Method: HE & CE
- Focus: Multi-domain, multi-dimensional capabilities
- Numbers of Evaluation Categories/Subcategories: 3/21
- Evaluation Category: Choice qa, Classification, Generation qa
HELM 2022-11 | All | EN | CI | Paper | Github | เว็บไซต์
- Publisher: Stanford University et al.
- ขนาด: -
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: HE & CE
- Focus: Evaluate LLMs on a wide range of scenarios and metrics
- Numbers of Evaluation Categories/Subcategories: 73/-
- Evaluation Category: Question answering, Information retrieval, Sentiment analysis, Toxicity detection, Aspirational scenarios, etc.
LLMEVAL-1 2023-5 | All | ZH | HG | คนอื่น ๆ
- Publisher: Fudan University et al.
- Size: 453 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: HE & ME
- Focus: Multidimensional capabilities
- Numbers of Evaluation Categories/Subcategories: 17/-
- Evaluation Category: Fact-based question answering, Reading comprehension, Framework generation, Paragraph rewriting, etc.
LMentry 2023-7 | All | EN | HG | Paper | คนอื่น ๆ
- Publisher: Tel Aviv University et al.
- Size: 110703 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: The performance on challenging tasks
- Numbers of Evaluation Categories/Subcategories: 25/-
- Evaluation Category: Sentence containing word, Sentence not containing word, Word containing letter, Word not containing letter, etc.
AlignBench 2023-11 | All | ZH | HG & MC | Paper | Github | Dataset
- Publisher: Tsinghua University et al.
- Size: 683 instances
- ใบอนุญาต: -
- Question Type: Multi
- Evaluation Method: ME
- Focus: Evaluate the alignment of LLMs on Chinese multitasks.
- Numbers of Evaluation Categories/Subcategories: 8/-
- Evaluation Category: Fundamental language ability, Advanced Chinese understanding, Open-ended questions, Writing ability, Logical reasoning, Mathematics, Task-oriented role play,
- Professional knowledge
Multilingual
XNLI 2018-10 | All | Multi (15) | HG | Paper | คนอื่น ๆ
- Publisher: Facebook AI et al.
- Size: 112500 instances
- License: CC-BY-NC-4.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: Multilingual NLI
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Multilingual natural language inference
XTREME 2020-3 | All | Multi (40) | CI | Paper | Github | เว็บไซต์
- Publisher: Carnegie Mellon University et al.
- ขนาด: -
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: The cross-lingual generalization capabilities
- Numbers of Evaluation Categories/Subcategories: 4/9
- Evaluation Category: Classification, Structured prediction, QA, Retrieval
MGSM 2022-10 | All | Multi (10) | CI | Paper | Github | Dataset
- Publisher: Google Research et al.
- Size: 2580 instances
- License: CC-BY-SA-4.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: Multilingual mathematical reasoning abilities
- Numbers of Evaluation Categories/Subcategories: 1/-
- Evaluation Category: Math
อื่น
EcomGPT_eval 2023-8 | All | EN & ZH | CI | Paper | คนอื่น ๆ
- Publisher: Alibaba
- Size: 6000 instances
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: E-commerce-related tasks
- Numbers of Evaluation Categories/Subcategories: 4/12
- Evaluation Category: Classification, Generation, Extraction, Others
- Domain: E-commerce
FewCLUE 2021-7 | Partial | ZH | CI | Paper | Github | เว็บไซต์
- Publisher: CLUE team
- Size: 9 datasets
- ใบอนุญาต: -
- Question Type: SQ
- Evaluation Method: CE
- Focus: Compare different few-shot learning methods
- Numbers of Evaluation Categories/Subcategories: 3/9
- Evaluation Category: Single sentence tasks, Sentence pair tasks, Reading comprehension
- Domain: Few-shot learning
GeoBench 2023-6 | All | EN | HG | Paper | คนอื่น ๆ
- Publisher: Shanghai Jiao Tong University et al.
- Size: 2517 instances
- License: Apache-2.0
- Question Type: Multi
- Evaluation Method: HE & CE & ME
- Focus: LLMs' performance in understanding and utilizing geoscience knowledge
- Numbers of Evaluation Categories/Subcategories: 2/-
- Evaluation Category: NPEE, APTest
- Domain: Geoscience
Owl-Bench 2023-9 | All | EN & ZH | HG | Paper | คนอื่น ๆ
- Publisher: Beihang University et al.
- Size: 1317 instances
- ใบอนุญาต: -
- Question Type: Multi
- Evaluation Method: ME
- Focus: The performance in IT-related tasks
- Numbers of Evaluation Categories/Subcategories: 9/-
- Evaluation Category: Information security, Application, System architecture, Software architecture, Middleware, Network, Operating system, Infrastructure, Database
- Domain: IT
MINT 2023-9 | All | EN | CI | Paper | Github | Dataset | เว็บไซต์
- Publisher: University of Illinois Urbana-Champaign et al.
- Size: 586 instances
- License: Apache-2.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: Solve complex tasks through multi-turn interactions using tools and leveraging natural language feedback
- Numbers of Evaluation Categories/Subcategories: 3/-
- Evaluation Category: Code generation, Decision making, Reasoning
- Domain: Multi-turn interactions
PromptBench 2023-6 | All | EN | CI | Paper | คนอื่น ๆ
- Publisher: Microsoft Research et al.
- Size: 583884 instances
- License: MIT
- Question Type: SQ
- Evaluation Method: CE
- Focus: The models' robustness
- Numbers of Evaluation Categories/Subcategories: 10/15
- Evaluation Category: Sentiment analysis, Grammar correctness, Duplicate sentence detection, Natural language inference, etc.
- Domain: Robustness
EmotionBench 2023-8 | All | EN | HG & MC | Paper | คนอื่น ๆ
- Publisher: The Chinese University of Hong Kong et al.
- ขนาด: -
- License: GPL-3.0
- Question Type: SQ
- Evaluation Method: CE
- Focus: The empathy ability
- Numbers of Evaluation Categories/Subcategories: 8/36
- Evaluation Category: Anger, Anxiety, Depression, Frustration, Jealous, Guilt, Fear, Embarrassment
- Domain: Sentiment
Evaluation Platform
CLUE Benchmark Series
- SuperCLUE-Agent
- SuperCLUE-Auto
- SuperCLUE-Math6
- SuperCLUE-Safety
- SuperCLUE-Code3
- SuperCLUE-Video
- SuperCLUE-RAG
- SuperCLUE-Industry
- SuperCLUE-Role
OpenLLM Leaderboard
OpenCompass
MTEB Leaderboard
C-MTEB Leaderboard
Traditional NLP Datasets
Diverging from instruction fine-tuning datasets, we categorize text datasets dedicated to natural language tasks before the widespread adoption of LLMs as traditional NLP datasets.
Dataset information format:
- Dataset name Release Time | Language | Paper | Github | Dataset | Website
- Publisher:
- Train/Dev/Test/All Size:
- License:
- Number of Entity Categories: (NER Task)
- Number of Relationship Categories: (RE Task)
Question Answering
The task of question-answering requires the model to utilize its knowledge and reasoning capabilities to respond to queries based on provided text (which may be optional) and questions.
Reading Comprehension
The task of reading comprehension entails presenting a model with a designated text passage and associated questions, prompting the model to understand the text for the purpose of answering the questions.
Selection & Judgment
BoolQ 2019-5 | EN | Paper | คนอื่น ๆ
- Publisher: University of Washington et al.
- Train/Dev/Test/All Size: 9427/3270/3245/15942
- License: CC-SA-3.0
CosmosQA 2019-9 | EN | Paper | Github | Dataset | เว็บไซต์
- Publisher: University of Illinois Urbana-Champaign et al.
- Train/Dev/Test/All Size: 25588/3000/7000/35588
- License: CC-BY-4.0
CondaQA 2022-11 | EN | Paper | Github | ชุดข้อมูล
- Publisher: Carnegie Mellon University et al.
- Train/Dev/Test/All Size: 5832/1110/7240/14182
- License: Apache-2.0
PubMedQA 2019-9 | EN | Paper | Github | Dataset | เว็บไซต์
- Publisher: University of Pittsburgh et al.
- Train/Dev/Test/All Size: -/-/-/273.5K
- License: MIT
MultiRC 2018-6 | EN | Paper | Github | Dataset
- Publisher: University of Pennsylvania et al.
- Train/Dev/Test/All Size: -/-/-/9872
- License: MultiRC License
RACE 2017-4 | EN | Paper | Dataset | เว็บไซต์
- Publisher: Carnegie Mellon University
- Train/Dev/Test/All Size: 87866/4887/4934/97687
- ใบอนุญาต: -
C3 2019-4 | ZH | Paper | Github | เว็บไซต์
- Publisher: Cornell University et al.
- Train/Dev/Test/All Size: 11869/3816/3892/19577
- ใบอนุญาต: -
ReClor 2020-2 | EN | Paper | เว็บไซต์
- Publisher: National University of Singapore
- Train/Dev/Test/All Size: 4638/500/1000/6138
- ใบอนุญาต: -
DREAM 2020-2 | EN | Paper | Github | เว็บไซต์
- Publisher: National University of Singapore
- Train/Dev/Test/All Size: 4638/500/1000/6138
- ใบอนุญาต: -
QuAIL 2020-4 | EN | Paper | เว็บไซต์
- Publisher: University of Massachusetts Lowell
- Train/Dev/Test/All Size: 10346/-/2164/12510
- License: CC-NC-SA-4.0
DuReader Yes/No 2019-12 | ZH | Github1 | Github2
- Publisher: Baidu Inc. et al.
- Train/Dev/Test/All Size: 75K/5.5K/11K/91.5K
- License: Apache-2.0
MCTest 2013-10 | EN | Paper | Dataset
- Publisher: Microsoft Research
- Train/Dev/Test/All Size: 1200/200/600/2000
- ใบอนุญาต: -
Cloze Test
ChID 2019-6 | ZH | Paper | Github | Dataset
- Publisher: Tsinghua University et al.
- Train/Dev/Test/All Size: 605k/23.2K/83.3K/711.5K
- License: Apache-2.0
LAMBADA 2016-6 | EN | Paper | Dataset | เว็บไซต์
- Publisher: University of Trento et al.
- Train/Dev/Test/All Size: 2662/4869/5153/12684
- License: CC-BY-4.0
CLOTH 2018-10 | EN | Paper | Dataset
- Publisher: Carnegie Melon University
- Train/Dev/Test/All Size: 76850/11067/11516/99433
- License: MIT
CMRC2019 2020-12 | ZH | Paper | Github | เว็บไซต์
- Publisher: Harbin Institute of Technology et al.
- Train/Dev/Test/All Size: 100009/3053/5118/108180
- License: CC-BY-SA-4.0
Answer Extraction
SQuAD 2016-11 | EN | Paper | Dataset
- Publisher: Stanford University
- Train/Dev/Test/All Size: 87599/10570/9533/107702
- License: CC-BY-4.0
SQuAD 2.0 2018-6 | EN | Paper | ชุดข้อมูล
- Publisher: Stanford University
- Train/Dev/Test/All Size: 130319/11873/8862/151054
- License: CC-BY-SA-4.0
HOTPOTQA 2018-9 | EN | Paper | Dataset | เว็บไซต์
- Publisher: Carnegie Mellon University et al.
- Train/Dev/Test/All Size: 90447/7405/7405/105257
- License: CC-BY-SA-4.0
TriviaQA 2017-7 | EN | Paper | Github | Dataset
- Publisher: Univ. of Washington et al.
- Train/Dev/Test/All Size: -/-/-/95000
- License: Apache-2.0
Natural Questions 2019-X | EN | Paper | Github | Dataset
- Publisher: Google Research
- Train/Dev/Test/All Size: 307372/7830/7842/323044
- License: CC-BY-4.0
ReCoRD 2018-10 | EN | Paper | เว็บไซต์
- Publisher: Johns Hopkins University et al.
- Train/Dev/Test/All Size: 100730/10000/10000/120730
- ใบอนุญาต: -
QuAC 2018-8 | EN | Paper | Dataset | เว็บไซต์
- Publisher: AI2 et al.
- Train/Dev/Test/All Size: 83568/7354/7353/98407
- License: CC-BY-SA-4.0
TyDiQA 2020-3 | Multi (11) | Paper | Github | Dataset
- Publisher: Google Research
- Train/Dev/Test/All Size: 116916/18670/18751/154337
- License: Apache-2.0
CMRC2018 2019-11 | ZH | Paper | คนอื่น ๆ
- Publisher: Harbin Institute of Technology et al.
- Train/Dev/Test/All Size: 10321/3351/4895/18567
- License: CC-BY-SA-4.0
Adversarial QA 2020-2 | EN | Paper | Github | Dataset
- Publisher: University College London
- Train/Dev/Test/All Size: 30000/3000/3000/36000
- License: MIT
Quoref 2019-8 | EN | Paper | เว็บไซต์
- Publisher: AI2 et al.
- Train/Dev/Test/All Size: 19399/2418/2537/24354
- License: CC-BY-4.0
MLQA 2020-7 | Multi (7) | Paper | Github | Dataset
- Publisher: Facebook AI Research et al.
- Train/Dev/Test/All Size: -/4199/42246/46445
- License: CC-BY-SA-3.0
DuReader Robust 2020-3 | ZH | Paper | Github1 | Github2
- Publisher: Baidu Inc. et al.
- Train/Dev/Test/All Size: 15K/1.4K/4.8K/21.2K
- License: Apache-2.0
DuReader Checklist 2021-3 | ZH | Github1 | Github2
- Publisher: Baidu Inc. et al.
- Train/Dev/Test/All Size: 3K/1.1K/4.5K/8.6K
- License: Apache-2.0
CUAD 2021-3 | EN | Paper | Dataset
- Publisher: UC Berkeley et al.
- Train/Dev/Test/All Size: 22450/-/4182/26632
- License: CC-BY-4.0
MS MARCO 2016-11 | EN | Paper | Github | Dataset
- Publisher: Microsoft AI & Research
- Train/Dev/Test/All Size: 808731/101093/101092/1010916
- License: MIT
Unrestricted QA
DROP 2019-6 | EN | Paper | เว็บไซต์
- Publisher: University of California et al.
- Train/Dev/Test/All Size: 77409/9536/9622/96567
- License: CC-BY-4.0
CoQA 2018-8 | EN | Paper | เว็บไซต์
- Publisher: Stanford University
- Train/Dev/Test/All Size: -/-/-/127K
- ใบอนุญาต: -
QASPER 2021-5 | EN | Paper | เว็บไซต์
- Publisher: AI2 et al.
- Train/Dev/Test/All Size: -/-/-/5049
- License: CC-BY-4.0
DuoRC 2018-7 | EN | Paper | Dataset | เว็บไซต์
- Publisher: IBM Research et al.
- Train/Dev/Test/All Size: 130261/27914/27914/186089
- License: MIT
DuReader 2.0 2018-4 | ZH | Paper | Github1 | Github2
- Publisher: Baidu Inc. et al.
- Train/Dev/Test/All Size: -/-/-/200K
- License: Apache-2.0
Knowledge QA
In the knowledge QA task, models respond to questions by leveraging world knowledge, common sense, scientific insights, domain-specific information, and more.
ARC 2018-3 | EN | Paper | เว็บไซต์
- Publisher: AI2
- Train/Dev/Test/All Size: 3370/869/3548/7787
- License: CC-BY-SA
CommonsenseQA 2018-11 | EN | Paper | Github | Dataset | เว็บไซต์
- Publisher: Tel-Aviv University et al.
- Train/Dev/Test/All Size: 9797/1225/1225/12247
- License: MIT
OpenBookQA 2018-10 | EN | Paper | Github | ชุดข้อมูล
- Publisher: AI2 et al.
- Train/Dev/Test/All Size: 4957/500/500/5957
- License: Apache-2.0
PIQA 2019-11 | EN | Paper | Github | Dataset
- Publisher: AI2 et al.
- Train/Dev/Test/All Size: 16.1K/1.84K/3.08K/21.02K
- License: MIT
JEC-QA 2019-11 | EN | Paper | Github | Dataset | เว็บไซต์
- Publisher: Tsinghua University et al.
- Train/Dev/Test/All Size: -/-/26365/26365
- License: CC-NC-ND-4.0
CMD 2019-X | ZH | Github | Dataset
- Publisher: Toyhom
- Train/Dev/Test/All Size: -/-/-/792099
- License: MIT
cMedQA2 2018-11 | ZH | Paper | Dataset
- Publisher: National University of Defense Technology
- Train/Dev/Test/All Size: 100000/4000/4000/108000
- License: GPL-3.0
HEAD-QA 2019-7 | EN & ES | Paper | Github | Dataset | เว็บไซต์
- Publisher: Universidade da Coruna
- Train/Dev/Test/All Size: 2657/1366/2742/13530
- License: MIT
SciQ 2017-9 | EN | Paper | Dataset | เว็บไซต์
- Publisher: University College London et al.
- Train/Dev/Test/All Size: 11679/1000/1000/13679
- License: CC-BY-NC-3.0
WikiQA 2015-9 | EN | Paper | Dataset | เว็บไซต์
- Publisher: Georgia Institute of Technology et al.
- Train/Dev/Test/All Size: 2118/296/633/3047
- License: Microsoft Research Data License
ECQA 2021-8 | EN | Paper | คนอื่น ๆ
- Publisher: IIT Delhi et al.
- Train/Dev/Test/All Size: 7598/1090/2194/10882
- License: CDLA-Sharing-1.0
PsyQA 2021-6 | ZH | Paper | คนอื่น ๆ
- Publisher: The CoAI group et al.
- Train/Dev/Test/All Size: -/-/-/22346
- License: PsyQA User Agreement
WebMedQA 2018-12 | ZH | Paper | คนอื่น ๆ
- Publisher: Chinese Academy of Sciences et al.
- Train/Dev/Test/All Size: 50610/6337/6337/63284
- License: Apache-2.0
WebQuestions 2013-10 | EN | Paper | Dataset
- Publisher: Stanford University
- Train/Dev/Test/All Size: 3778/-/2032/5810
- ใบอนุญาต: -
Reasoning QA
The focal point of reasoning QA tasks is the requirement for models to apply abilities such as logical reasoning, multi-step inference, and causal reasoning in answering questions.
STRATEGYQA 2021-1 | EN | Paper | เว็บไซต์
- Publisher: Tel Aviv University et al.
- Train/Dev/Test/All Size: 2290/-/490/2780
- License: MIT
COPA 2011-6 | EN | Paper | เว็บไซต์
- Publisher: Indiana University et al.
- Train/Dev/Test/All Size: -/500/500/1000
- License: BSD 2-Clause
HellaSwag 2019-7 | EN | Paper | คนอื่น ๆ
- Publisher: University of Washington et al.
- Train/Dev/Test/All Size: 39905/10042/10003/59950
- License: MIT
StoryCloze 2016-6 | EN | Paper | Dataset
- Publisher: University of Rochester et al.
- Train/Dev/Test/All Size: -/1871/1871/3742
- ใบอนุญาต: -
Social IQa 2019-4 | EN | Paper | ชุดข้อมูล
- Publisher: AI2
- Train/Dev/Test/All Size: 33410/1954/-/35364
- ใบอนุญาต: -
LogiQA 2020-7 | EN & ZH | Paper | คนอื่น ๆ
- Publisher: Fudan University et al.
- Train/Dev/Test/All Size: 7376/651/651/8678
- ใบอนุญาต: -
PROST 2021-8 | EN | Paper | Github | Dataset
- Publisher: University of Colorado Boulder
- Train/Dev/Test/All Size: -/-/18736/18736
- License: Apache-2.0
QuaRTz 2019-11 | EN | Paper | Dataset | เว็บไซต์
- Publisher: AI2
- Train/Dev/Test/All Size: 2696/384/784/3864
- License: CC-BY-4.0
WIQA 2019-9 | EN | Paper | Dataset | เว็บไซต์
- Publisher: AI2
- Train/Dev/Test/All Size: 29808/6894/3993/40695
- ใบอนุญาต: -
QASC 2019-10 | EN | Paper | Dataset | เว็บไซต์
- Publisher: AI2 et al.
- Train/Dev/Test/All Size: 8134/926/920/9980
- License: CC-BY-4.0
QuaRel 2018-11 | EN | Paper | เว็บไซต์
- Publisher: AI2
- Train/Dev/Test/All Size: 1941/278/552/2771
- License: CC-BY-4.0
ROPES 2019-8 | EN | Paper | Dataset | เว็บไซต์
- Publisher: AI2
- Train/Dev/Test/All Size: 10K/1.6K/1.7K/13.3K
- License: CC-BY-4.0
CREAK 2021-9 | EN | Paper | คนอื่น ๆ
- Publisher: The University of Texas at Austin
- Train/Dev/Test/All Size: 10176/1371/1371/13418
- License: MIT
Recognizing Textual Entailment
The primary objective of tasks related to Recognizing Textual Entailment (RTE) is to assess whether information in one textual segment can be logically inferred from another.
ANLI 2019-10 | EN | Paper | Github | Dataset
- Publisher: UNC Chapel Hill et al.
- Train/Dev/Test/All Size: 162865/3200/3200/169265
- License: CC-NC-4.0
RTE - | EN | Paper1 | Paper2 | Paper3 | Paper4 | Dataset
- Publisher: The PASCAL Recognising Textual Entailment Challenge
- Train/Dev/Test/All Size: 2.49K/277/3K/5.77K
- License: CC-BY-4.0
WANLI 2022-1 | EN | Paper | Dataset
- Publisher: University of Washington et al.
- Train/Dev/Test/All Size: 102885/-/5000/107885
- License: CC-BY-4.0
MedNLI 2018-8 | EN | Paper | Github | Dataset | เว็บไซต์
- Publisher: University of Massachusetts Lowell et al.
- Train/Dev/Test/All Size: 11232/1395/1422/14049
- ใบอนุญาต: -
CommitmentBank 2019-X | EN | Paper | Github | Dataset
- Publisher: The Ohio State University et al.
- Train/Dev/Test/All Size: -/-/-/1200
- ใบอนุญาต: -
MultiNLI 2018-6 | EN | Paper | Dataset
- Publisher: New York University
- Train/Dev/Test/All Size: 392702/19647/-/412349
- ใบอนุญาต: -
SNLI 2015-8 | EN | Paper | Dataset
- Publisher: Stanford Linguistics et al.
- Train/Dev/Test/All Size: 550152/10000/10000/570152
- License: CC-BY-SA-4.0
OCNLI 2020-10 | ZH | Paper | คนอื่น ๆ
- Publisher: Indiana University et al.
- Train/Dev/Test/All Size: 50K/3K/3K/56K
- License: CC-BY-NC-2.0
CMNLI 2020-12 | ZH | Github | Dataset
- Publisher: CLUE team
- Train/Dev/Test/All Size: 391783/12426/13880/418089
- ใบอนุญาต: -
CINLID 2021-4 | ZH | Dataset
- Publisher: Gao et al.
- Train/Dev/Test/All Size: 80124/-/26708/106832
- ใบอนุญาต: -
คณิตศาสตร์
Mathematical assignments commonly involve standard mathematical calculations, theorem validations, and mathematical reasoning tasks, among others.
GSM8K 2021-10 | EN | Paper | Github | ชุดข้อมูล
- Publisher: OpenAI
- Train/Dev/Test/All Size: 7.5K/-/1K/8.5K
- License: MIT
SVAMP 2021-3 | EN | Paper | คนอื่น ๆ
- Publisher: Microsoft Research India
- Train/Dev/Test/All Size: -/-/-/1000
- License: MIT
ASDiv 2021-6 | EN | Paper | Github | Dataset
- Publisher: Institute of Information Science
- Train/Dev/Test/All Size: -/-/-/2305
- License: CC-BY-NC-4.0
MATH 2021-3 | EN | Paper | Github | Dataset
- Publisher: UC Berkeley et al.
- Train/Dev/Test/All Size: 7500/-/5000/12500
- License: MIT
Ape210K 2020-9 | ZH | Paper | คนอื่น ๆ
- Publisher: Yuanfudao AI Lab et al.
- Train/Dev/Test/All Size: 200488/5000/5000/210488
- ใบอนุญาต: -
Math23K 2017-9 | ZH | Paper | คนอื่น ๆ
- Publisher: Tencent AI Lab
- Train/Dev/Test/All Size: -/-/-/23161
- License: MIT
MathQA 2019-5 | EN | Paper | Dataset | เว็บไซต์
- Publisher: University of Washington et al.
- Train/Dev/Test/All Size: 29837/4475/2985/37297
- License: Apache-2.0
AQUA-RAT 2017-7 | EN | Paper | Github | Dataset
- Publisher: DeepMind
- Train/Dev/Test/All Size: 100949/250/250/101499
- License: Apache-2.0
NaturalProofs 2021-4 | EN | Paper | คนอื่น ๆ
- Publisher: University of Washington et al.
- Train/Dev/Test/All Size: -/-/-/80795
- License: MIT
Coreference Resolution
The core objective of tasks related to coreference resolution is the identification of referential relationships within texts.
WSC 2012-X | EN | Paper | Dataset
- Publisher: University of Toronto et al.
- Train/Dev/Test/All Size: -/-/285/285
- License: CC-BY-4.0
DPR 2012-7 | EN | Paper | Dataset
- Publisher: University of Texas at Dallas
- Train/Dev/Test/All Size: 1322/-/564/1886
- ใบอนุญาต: -
WinoGrande 2019-7 | EN | Paper | Github | Dataset
- Publisher: AI2 et al.
- Train/Dev/Test/All Size: 63238/1267/1767/66272
- License: CC-BY
WiC 2018-8 | EN | Paper | เว็บไซต์
- Publisher: University of Cambridge
- Train/Dev/Test/All Size: 5428/638/1400/7466
- License: CC-NC-4.0
WinoWhy 2020-7 | EN | Paper | คนอื่น ๆ
- Publisher: HKUST
- Train/Dev/Test/All Size: -/-/-/43972
- License: MIT
CLUEWSC2020 2020-12 | ZH | Paper | Github1 | Github2
- Publisher: CLUE team
- Train/Dev/Test/All Size: 1244/304/290/1838
- ใบอนุญาต: -
Sentiment Analysis
The sentiment analysis task, commonly known as emotion classification, seeks to analyze and deduce the emotional inclination of provided texts, commonly categorized as positive, negative, or neutral sentiments.
IMDB 2011-6 | EN | Paper | Dataset
- Publisher: Stanford University
- Train/Dev/Test/All Size: 25000/-/25000/50000
- ใบอนุญาต: -
Sentiment140 2009-X | EN | Paper | ชุดข้อมูล
- Publisher: Stanford University
- Train/Dev/Test/All Size: 1600000/-/359/1600359
- ใบอนุญาต: -
SST-2 2013-10 | EN | Paper | Dataset
- Publisher: Stanford University
- Train/Dev/Test/All Size: 67349/872/1821/70042
- ใบอนุญาต: -
EPRSTMT 2021-7 | ZH | Paper | คนอื่น ๆ
- Publisher: CLUE team
- Train/Dev/Test/All Size: 32/32/1363/20992
- ใบอนุญาต: -
Semantic Matching
The task of semantic matching entails evaluating the semantic similarity or degree of correspondence between two sequences of text.
MRPC 2005-X | EN | กระดาษ
- Publisher: Microsoft Research
- Train/Dev/Test/All Size: 4076/-/1725/5801
- ใบอนุญาต: -
QQP 2018-11 | EN | Paper | Dataset
- Publisher: New York University et al.
- Train/Dev/Test/All Size: 364K/-/-/364K
- ใบอนุญาต: -
PAWS 2019-6 | EN | Paper | Github | Dataset
- Publisher: Google AI Language
- Train/Dev/Test/All Size: 49401/8000/8000/65401
- ใบอนุญาต: -
STSB 2017-8 | Multi (10) | Paper | Github | Dataset | เว็บไซต์
- Publisher: Google Research et al.
- Train/Dev/Test/All Size: 5749/1500/1379/8628
- ใบอนุญาต: -
AFQMC 2020-12 | ZH | กระดาษ
- Publisher: CLUE team
- Train/Dev/Test/All Size: 34.3K/4.3K/3.9K/42.5K
- ใบอนุญาต: -
BQ 2018-10 | ZH | Paper | Dataset
- Publisher: Harbin Institute of Technology et al.
- Train/Dev/Test/All Size: 100000/10000/10000/120000
- ใบอนุญาต: -
LCQMC 2018-8 | ZH | กระดาษ
- Publisher: Harbin Institute of Technology et al.
- Train/Dev/Test/All Size: 238766/8802/12500/260068
- License: CC-BY-4.0
PAWS-X 2019-8 | Multi (6) | Paper | คนอื่น ๆ
- Publisher: Google Research
- Train/Dev/Test/All Size: 296406/11815/11844/320065
- ใบอนุญาต: -
BUSTM 2021-7 | ZH | Paper | คนอื่น ๆ
- Publisher: CLUE team
- Train/Dev/Test/All Size: 32/32/3772/8087
- ใบอนุญาต: -
DuQM 2021-9 | ZH | Paper | Github1 | Github2
- Publisher: Baidu Inc. et al.
- Train/Dev/Test/All Size: -/-/-/10121
- License: Apache-2.0
Text Generation
The narrow definition of text generation tasks is bound by provided content and specific requirements. It involves utilizing benchmark data, such as descriptive terms and triplets, to generate corresponding textual descriptions.
CommonGen 2019-11 | EN | Paper | Github | Dataset
- Publisher: University of Southern California et al.
- Train/Dev/Test/All Size: 67389/4018/1497/72904
- License: MIT
DART 2020-7 | EN | Paper | Github | Dataset
- Publisher: Yale University et al.
- Train/Dev/Test/All Size: 30526/2768/6959/40253
- License: MIT
E2E 2017-6 | EN | Paper | Github | ชุดข้อมูล
- Publisher: Heriot-Watt University
- Train/Dev/Test/All Size: 42061/4672/4693/51426
- License: CC-BY-SA-3.0
WebNLG 2017-7 | EN & RU | Paper | Github | Dataset
- Publisher: LORIA et al.
- Train/Dev/Test/All Size: 49665/6490/7930/64085
- License: CC-BY-NC-SA-4.0
Text Translation
Text translation involves transforming text from one language to another.
Text Summarization
The task of text summarization pertains to the extraction or generation of a brief summary or headline from an extended text to encapsulate its primary content.
AESLC 2019-7 | EN | Paper | Github | Dataset
- Publisher: Yale University et al.
- Train/Dev/Test/All Size: 14436/1960/1906/18302
- License: CC-BY-NC-SA-4.0
CNN-DM 2017-4 | EN | Paper | Dataset
- Publisher: Stanford University et al.
- Train/Dev/Test/All Size: 287113/13368/11490/311971
- License: Apache-2.0
MultiNews 2019-7 | EN | Paper | Github | Dataset
- Publisher: Yale University
- Train/Dev/Test/All Size: 44972/5622/5622/56216
- ใบอนุญาต: -
Newsroom 2018-6 | EN | Paper | Dataset
- Publisher: Cornell University
- Train/Dev/Test/All Size: 995041/108837/108862/1212740
- ใบอนุญาต: -
SAMSum 2019-11 | EN | Paper | Dataset
- Publisher: Cornell University
- Train/Dev/Test/All Size: 14732/818/819/16369
- License: CC-BY-NC-ND-4.0
XSum 2018-10 | EN | Paper | Github | Dataset
- Publisher: University of Edinburgh
- Train/Dev/Test/All Size: 204045/11332/11334/226711
- License: MIT
Opinion Abstracts 2016-6 | EN | Paper | ชุดข้อมูล
- Publisher: Northeastern University et al.
- Train/Dev/Test/All Size: 5990/-/-/5990
- ใบอนุญาต: -
WikiLingua 2020-10 | Multi (18) | Paper | Github | Dataset
- Publisher: Columbia University et al.
- Train/Dev/Test/All Size: -/-/-/770087
- License: CC-BY-3.0
LCSTS 2015-6 | ZH | Paper | Dataset
- Publisher: Harbin Institute of Technology
- Train/Dev/Test/All Size: 2400000/10000/1000/2411000
- License: CC-BY-4.0
CNewSum 2021-10 | ZH | Paper | Github | Dataset | เว็บไซต์
- Publisher: ByteDance
- Train/Dev/Test/All Size: 275596/14356/14355/304307
- License: Apache-2.0
XL-Sum 2021-8 | Multi (45) | Paper | Dataset
- Publisher: BUET et al.
- Train/Dev/Test/All Size: 1122857/114198/114198/1351253
- License: CC-BY-NC-SA-4.0
WikiHow 2018-10 | EN | Paper | คนอื่น ๆ
- Publisher: University of California
- Train/Dev/Test/All Size: -/-/-/230K
- License: CC-BY-NC-SA
MediaSum 2021-3 | EN | Paper | Github | Dataset
- Publisher: Microsoft Cognitive Services Research Group
- Train/Dev/Test/All Size: 443596/10000/10000/463596
- ใบอนุญาต: -
Text Classification
Text classification tasks aim to assign various text instances to predefined categories, comprising text data and category labels as pivotal components.
AGNEWS 2015-9 | EN | Paper | Dataset | เว็บไซต์
- Publisher: New York University
- Train/Dev/Test/All Size: 120000/-/7600/127600
- ใบอนุญาต: -
TNEWS 2020-11 | ZH | Paper | Github | Dataset
- Publisher: CLUE team
- Train/Dev/Test/All Size: 53.3K/10K/10K/73.3K
- ใบอนุญาต: -
IFLYTEK 2020-12 | ZH | กระดาษ
- Publisher: CLUE team
- Train/Dev/Test/All Size: 12.1K/2.6K/2.6K/17.3K
- ใบอนุญาต: -
MARC 2020-11 | Multi (6) | Paper | Dataset
- Publisher: Amazon et al.
- Train/Dev/Test/All Size: 1200000/30000/30000/1260000
- ใบอนุญาต: -
THUCNews 2016-X | ZH | Github | เว็บไซต์
- Publisher: Tsinghua University
- Train/Dev/Test/All Size: -/-/-/1672165
- License: MIT
CSLDCP 2021-7 | ZH | Paper | Github | เว็บไซต์
- Publisher: CLUE team
- Train/Dev/Test/All Size: 536/536/4783/23966
- ใบอนุญาต: -
Text Quality Evaluation
The task of text quality evaluation, also referred to as text correction, involves the identification and correction of grammatical, spelling, or language usage errors in text.
CoLA 2018-5 | EN | Paper | เว็บไซต์
- Publisher: New York University
- Train/Dev/Test/All Size: 8511/1043/-/9554
- License: CC-BY-4.0
SIGHAN - | ZH | Paper1 | Paper2 | Paper3 | Dataset1 | Dataset2 | Dataset3
- Publisher: Chaoyang Univ. of Technology et al.
- Train/Dev/Test/All Size: 6476/-/3162/9638
- ใบอนุญาต: -
YACLC 2021-12 | ZH | Paper | คนอื่น ๆ
- Publisher: Beijing Language and Culture University et al.
- Train/Dev/Test/All Size: 8000/1000/1000/10000
- ใบอนุญาต: -
CSCD-IME 2022-11 | ZH | Paper | คนอื่น ๆ
- Publisher: Tencent Inc
- Train/Dev/Test/All Size: 30000/5000/5000/40000
- License: MIT
Text-to-Code
The Text-to-Code task involves models converting user-provided natural language descriptions into computer-executable code, thereby achieving the desired functionality or operation.
MBPP 2021-8 | EN & PL | Paper | คนอื่น ๆ
- Publisher: Google Research
- Train/Dev/Test/All Size: -/-/974/974
- ใบอนุญาต: -
DuSQL 2020-11 | ZH & PL | Paper | Dataset
- Publisher: Baidu Inc. et al.
- Train/Dev/Test/All Size: 18602/2039/3156/23797
- ใบอนุญาต: -
CSpider 2019-11 | ZH & PL | Paper | Github | เว็บไซต์
- Publisher: Westlake University
- Train/Dev/Test/All Size: -/-/-/10181
- License: CC-BY-SA-4.0
Spider 2018-9 | EN & PL | Paper | Github | เว็บไซต์
- Publisher: Yale University
- Train/Dev/Test/All Size: -/-/-/10181
- License: CC-BY-SA-4.0
Named Entity Recognition
The Named Entity Recognition (NER) task aims to discern and categorize named entities within a given text.
WUNT2017 2017-9 | EN | Paper | ชุดข้อมูล
- Publisher: Johns Hopkins University et al.
- Train/Dev/Test/All Size: 3394/1009/1287/5690
- License: CC-BY-4.0
- Number of Entity Categories: 6
Few-NERD 2021-5 | EN | Paper | Github | Dataset | เว็บไซต์
- Publisher: Tsinghua University et al.
- Train/Dev/Test/All Size: -/-/-/188200
- License: CC-BY-SA-4.0
- Number of Entity Categories: 66
CoNLL2003 2003-6 | EN & DE | Paper | Dataset
- Publisher: University of Antwerp
- Train/Dev/Test/All Size: 14041/3250/3453/20744
- ใบอนุญาต: -
- Number of Entity Categories: 4
OntoNotes 5.0 2013-10 | Multi (3) | Paper | Dataset | เว็บไซต์
- Publisher: Boston Childrens Hospital and Harvard Medical School et al.
- Train/Dev/Test/All Size: 59924/8528/8262/76714
- ใบอนุญาต: -
- Number of Entity Categories: 18
MSRA 2006-7 | ZH | Paper | Dataset
- Publisher: University of Chicago
- Train/Dev/Test/All Size: 46364/-/4365/50729
- License: CC-BY-4.0
- Number of Entity Categories: 3
Youku NER 2019-6 | ZH | Paper | Github | Dataset
- Publisher: Singapore University of Technology and Design et al.
- Train/Dev/Test/All Size: 8001/1000/1001/10002
- ใบอนุญาต: -
- Number of Entity Categories: 9
Taobao NER 2019-6 | ZH | Paper | Github | Dataset
- Publisher: Singapore University of Technology and Design et al.
- Train/Dev/Test/All Size: 6000/998/1000/7998
- ใบอนุญาต: -
- Number of Entity Categories: 9
Weibo NER 2015-9 | ZH | Paper | Github | Dataset
- Publisher: Johns Hopkins University
- Train/Dev/Test/All Size: 1350/269/270/1889
- License: CC-BY-SA-3.0
- Number of Entity Categories: 4
CLUENER 2020-1 | ZH | Paper | Github | Dataset
- Publisher: CLUE Organization
- Train/Dev/Test/All Size: 10748/1343/1345/13436
- ใบอนุญาต: -
- Number of Entity Categories: 10
Resume 2018-7 | ZH | Paper | คนอื่น ๆ
- Publisher: Singapore University of Technology and Design
- Train/Dev/Test/All Size: 3821/463/477/4761
- ใบอนุญาต: -
- Number of Entity Categories: 8
Relation Extraction
The endeavor of Relation Extraction (RE) necessitates the identification of connections between entities within textual content. This process typically includes recognizing and labeling pertinent entities, followed by the determination of the specific types of relationships that exist among them.
Dialogue RE 2020-7 | EN & ZH | Paper | Github | เว็บไซต์
- Publisher: Tencent AI Lab et al.
- Train/Dev/Test/All Size: 6100/2034/2034/10168
- ใบอนุญาต: -
- Number of Relationship Categories: 36
TACRED 2017-9 | EN | Paper | Dataset | เว็บไซต์
- Publisher: Stanford University
- Train/Dev/Test/All Size: 68124/22631/15509/106264
- License: LDC
- Number of Relationship Categories: 42
DocRED 2019-7 | EN | Paper | คนอื่น ๆ
- Publisher: Tsinghua University et al.
- Train/Dev/Test/All Size: 1546589/12332/12842/1571763
- License: MIT
- Number of Relationship Categories: 96
FewRel 2018-10 | EN | Paper1 | Paper2 | Github | เว็บไซต์
- Publisher: Tsinghua University
- Train/Dev/Test/All Size: -/-/-/70000
- License: CC-BY-SA-4.0
- Number of Relationship Categories: 100
Multitask
Multitask datasets hold significance as they can be concurrently utilized for different categories of NLP tasks.
CSL 2022-9 | ZH | Paper | คนอื่น ๆ
- Publisher: School of Information Engineering et al.
- Train/Dev/Test/All Size: -/-/-/396209
- License: Apache-2.0
QED 2021-3 | EN | Paper | คนอื่น ๆ
- Publisher: Stanford University et al.
- Train/Dev/Test/All Size: 7638/1355/-/8993
- License: CC-BY-SA-3.0 & GFDL
METS-CoV 2022-9 | EN | Paper | คนอื่น ๆ
- Publisher: Zhejiang University et al.
- Train/Dev/Test/All Size: -/-/-/-
- License: Apache-2.0
Multi-modal Large Language Models (MLLMs) Datasets
Pre-training Corpora
Documents
Instruction Fine-tuning Datasets
Remote Sensing
- MMRS-1M : Multi-sensor remote sensing instruction dataset
- Paper: EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain
- Github: https://github.com/wivizhang/EarthGPT
Images + Videos
- VideoChat2-IT : Instruction fine-tuning dataset for images/videos
- Paper: MVBench: A Comprehensive Multi-modal Video Understanding Benchmark
- Dataset: https://huggingface.co/datasets/OpenGVLab/VideoChat2-IT
Visual Document Understanding
- InstructDoc : A dataset for zero-shot generalization of visual document understanding
- Paper: InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document Understanding with Instructions
- Github: https://github.com/nttmdlab-nlp/InstructDoc
- Dataset: https://github.com/nttmdlab-nlp/InstructDoc
ทั่วไป
- ALLaVA-4V Data : The multimodal instruction fine-tuning dataset for the ALLaVA model
- Paper: ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model
- Github: https://github.com/FreedomIntelligence/ALLaVA
- Dataset: https://huggingface.co/datasets/FreedomIntelligence/ALLaVA-4V
Evaluation Datasets
Video Understanding
- MVBench : A comprehensive multi-modal video understanding benchmark
- Paper: MVBench: A Comprehensive Multi-modal Video Understanding Benchmark
- Github: https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat2
- Dataset: https://huggingface.co/datasets/OpenGVLab/MVBench
เรื่อง
Multitask
- MMT-Bench : A comprehensive multimodal benchmark for evaluating large vision-language models towards multitask AGI
- Paper: MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI
- Github: https://github.com/OpenGVLab/MMT-Bench
- Dataset: https://huggingface.co/datasets/Kaining/MMT-Bench
Long Input
- MM-NIAH : The first benchmark specifically designed to systematically evaluate the capability of existing MLLMs to comprehend long multimodal documents
- Paper: Needle In A Multimodal Haystack
- Github: https://github.com/OpenGVLab/MM-NIAH
- Dataset: https://github.com/OpenGVLab/MM-NIAH
Factuality
- MultiTrust : The first comprehensive and unified benchmark on the trustworthiness of MLLMs across five primary aspects: truthfulness, safety, robustness, fairness, and privacy
- Paper: Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study
- Github: https://github.com/thu-ml/MMTrustEval
- Website: https://multi-trust.github.io/#leaderboard
ทางการแพทย์
MultiMed : A benchmark designed to evaluate and enable large-scale learning across a wide spectrum of medical modalities and tasks
- Paper: MultiMed: Massively Multimodal and Multitask Medical Understanding
MedTrinity-25M : A large-scale multimodal dataset with multigranular annotations for medicine
- Paper: MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
- Github: https://github.com/UCSC-VLAA/MedTrinity-25M
- Dataset: https://huggingface.co/datasets/UCSC-VLAA/MedTrinity-25M
- Website: https://yunfeixie233.github.io/MedTrinity-25M/
Image Understanding
- MMIU : A comprehensive evaluation suite designed to assess LVLMs across a wide range of multi-image tasks
- Paper: MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models
- Github: https://github.com/OpenGVLab/MMIU
- Dataset: https://huggingface.co/datasets/FanqingM/MMIU-Benchmark
- Website: https://mmiu-bench.github.io/
Retrieval Augmented Generation (RAG) Datasets
CRUD-RAG : A comprehensive Chinese benchmark for RAG
- Paper: CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models
- Github: https://github.com/IAAR-Shanghai/CRUD_RAG
- Dataset: https://github.com/IAAR-Shanghai/CRUD_RAG
WikiEval : To do correlation analysis of difference metrics proposed in RAGAS
- Paper: RAGAS: Automated Evaluation of Retrieval Augmented Generation
- Github: https://github.com/explodinggradients/ragas
- Dataset: https://huggingface.co/datasets/explodinggradients/WikiEval
RGB : A benchmark for RAG
- Paper: Benchmarking Large Language Models in Retrieval-Augmented Generation
- Github: https://github.com/chen700564/RGB
- Dataset: https://github.com/chen700564/RGB
RAG-Instruct-Benchmark-Tester : An updated benchmarking test dataset for RAG use cases in the enterprise
- Dataset: https://huggingface.co/datasets/llmware/rag_instruct_benchmark_tester
- Website: https://medium.com/@darrenoberst/how-accurate-is-rag-8f0706281fd9
ARES : An automated evaluation framework for RAG
- Paper: ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems
- Github: https://github.com/stanford-futuredata/ARES
- Dataset: https://github.com/stanford-futuredata/ARES
ALCE : The quality assessment benchmark for context and responses
- Paper: Enabling Large Language Models to Generate Text with Citations
- Github: https://github.com/princeton-nlp/ALCE
- Dataset: https://huggingface.co/datasets/princeton-nlp/ALCE-data
CRAG : A comprehensive RAG benchmark
- Paper: CRAG -- Comprehensive RAG Benchmark
- Website: https://www.aicrowd.com/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024
RAGEval :A framework for automatically generating evaluation datasets to evaluate the knowledge usage ability of different LLMs in different scenarios
- Paper: RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework
- Github: https://github.com/OpenBMB/RAGEval
- Dataset: https://github.com/OpenBMB/RAGEval
LFRQA :A dataset of human-written long-form answers for cross-domain evaluation in RAG-QA systems
- Paper: RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering
- Github: https://github.com/awslabs/rag-qa-arena
MultiHop-RAG : Benchmarking retrieval-augmented generation for multi-hop queries
- Paper: MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries
- Github: https://github.com/yixuantt/MultiHop-RAG/
- Dataset: https://huggingface.co/datasets/yixuantt/MultiHopRAG
ติดต่อ
Contact information:
Lianwen Jin:[email protected]
Yang Liu:[email protected]
Due to our current limited human resources to manage such a vast amount of data resources, we regret that we are unable to include all data resources at this moment. If you find any important data resources that have not yet been included, we warmly invite you to submit relevant papers, data links, and other information to us. We will evaluate them, and if appropriate, we will include the data in the Awesome-LLMs-Datasets and the survey paper . Your assistance and support are greatly appreciated!
การอ้างอิง
If you wish to cite this project, please use the following citation format:
@article{liu2024survey,
title={Datasets for Large Language Models: A Comprehensive Survey},
author={Liu, Yang and Cao, Jiahuan and Liu, Chongyu and Ding, Kai and Jin, Lianwen},
journal={arXiv preprint arXiv:2402.18041},
year={2024}
}