ดาวน์โหลด awesome foundation model leaderboards - ดาวน์โหลด awesome foundation model leaderboards

ลีดเดอร์บอร์ดโมเดลรากฐานที่ยอดเยี่ยม

Awesome Foundation Model Leaderboard คือรายชื่อบอร์ดผู้นำโมเดล Foundation ที่ยอดเยี่ยมที่คัดสรรมาอย่างดี (สำหรับคำอธิบายว่าบอร์ดผู้นำคืออะไร โปรดดูบทช่วยสอนนี้) พร้อมด้วยเครื่องมือการพัฒนาและองค์กรประเมินผลต่างๆ ตามแบบสำรวจของเรา:

เกี่ยวกับเวิร์กโฟลว์และกลิ่นของการดำเนินการกระดานผู้นำ (LBOps):
การศึกษาเชิงสำรวจกระดานผู้นำแบบจำลองพื้นฐาน

ซิมิน (จิมมี่) จ้าว, อับดุล อาลี บังกาช, ฟิลิเป้ โรเซโร โกโก, แบรม อดัมส์, อาเหม็ด อี. ฮัสซัน

ห้องปฏิบัติการวิเคราะห์ซอฟต์แวร์และข่าวกรอง (SAIL)

หากคุณพบว่าพื้นที่เก็บข้อมูลนี้มีประโยชน์ โปรดติดดาวและอ้างอิงถึงเรา:

 @article{zhao2024workflows,
  title={On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards},
  author={Zhao, Zhimin and Bangash, Abdul Ali and C{^o}go, Filipe Roseiro and Adams, Bram and Hassan, Ahmed E},
  journal={arXiv preprint arXiv:2407.04065},
  year={2024}
}

นอกจากนี้ เรายังมีชุดเครื่องมือการค้นหาที่ช่วยให้คุณนำทางผ่านกระดานผู้นำได้อย่างรวดเร็ว

หากคุณต้องการมีส่วนร่วมในรายการนี้ (โปรดทำ) ยินดีเสนอคำขอดึง

หากคุณมีข้อเสนอแนะ คำวิจารณ์ หรือคำถามเกี่ยวกับรายการนี้ ยินดีที่จะหยิบยกประเด็นขึ้นมา

นอกจากนี้ ควรรวมลีดเดอร์บอร์ดไว้ด้วยหากเพียง:

มีการบำรุงรักษาอย่างแข็งขัน
มันเกี่ยวข้องกับแบบจำลองฐานราก

สารบัญ

เครื่องมือ
ความท้าทาย
อันดับ
- การจัดอันดับโมเดล
  - ครอบคลุม
  - ข้อความ
  - ภาพ
  - รหัส
  - วีดีโอ
  - คณิตศาสตร์
  - ตัวแทน
  - เสียง
  - 3 มิติ
  - ต่อเนื่องหลายรูปแบบ
- การจัดอันดับฐานข้อมูล
- การจัดอันดับชุดข้อมูล
- การจัดอันดับเมตริก
- การจัดอันดับกระดาษ
- อันดับกระดานผู้นำ

เครื่องมือ

ชื่อ	คำอธิบาย
ลีดเดอร์บอร์ดสาธิต	กระดานผู้นำสาธิตช่วยให้ผู้ใช้ปรับใช้กระดานผู้นำของตนได้อย่างง่ายดายด้วยเทมเพลตมาตรฐาน
แบ็กเอนด์กระดานผู้นำสาธิต	แบ็กเอนด์ของลีดเดอร์บอร์ดสาธิตช่วยให้ผู้ใช้จัดการลีดเดอร์บอร์ดและจัดการคำขอส่งได้ ตรวจสอบรายละเอียดนี้
การสร้างการแข่งขัน Kaggle	Kaggle Competition Creation ช่วยให้คุณสามารถออกแบบและเปิดตัวการแข่งขันแบบกำหนดเอง โดยใช้ประโยชน์จากชุดข้อมูลของคุณเพื่อมีส่วนร่วมกับชุมชนวิทยาศาสตร์ข้อมูล
นักสำรวจลีดเดอร์บอร์ด	Leaderboard Explorer ช่วยให้ผู้ใช้สำรวจกระดานผู้นำที่หลากหลายที่มีอยู่ใน Hugging Face Spaces
เปิดการเปลี่ยนชื่อกระดานผู้นำ LLM	open-llm-leaderboard-renamer ช่วยให้ผู้ใช้เปลี่ยนชื่อโมเดลใน Open LLM Leaderboard ได้อย่างง่ายดาย
เปิด LLM Leaderboard Results PR Opener	Open LLM Leaderboard Results PR Opener ช่วยให้ผู้ใช้แสดงผลลัพธ์ Open LLM Leaderboard ในการ์ดโมเดลของตน
เปิดตัวขูดกระดานผู้นำ LLM	Open LLM Leaderboard Scraper ช่วยให้ผู้ใช้คัดลอกและส่งออกข้อมูลจาก Open LLM Leaderboard
ติดตามความคืบหน้า	แอพนี้แสดงให้เห็นภาพความคืบหน้าของ LLM ที่เป็นกรรมสิทธิ์และโอเพ่นซอร์สเมื่อเวลาผ่านไปตามคะแนนของ LMSYS Chatbot Arena

ความท้าทาย

ชื่อ	คำอธิบาย
AIcrowd	AIcrowd เป็นเจ้าภาพจัดการความท้าทายและการแข่งขันแมชชีนเลิร์นนิงในโดเมนต่างๆ เช่น คอมพิวเตอร์วิทัศน์, NLP และการเรียนรู้แบบเสริมกำลัง โดยมุ่งเป้าไปที่ทั้งนักวิจัยและผู้ปฏิบัติงาน
เอไอ ฮับ	AI Hub เสนอการแข่งขันที่หลากหลายเพื่อสนับสนุนโซลูชัน AI ให้กับปัญหาในโลกแห่งความเป็นจริง โดยมุ่งเน้นไปที่นวัตกรรมและการทำงานร่วมกัน
เอไอ สตูดิโอ	AI Studio นำเสนอการแข่งขัน AI สำหรับคอมพิวเตอร์วิทัศน์ NLP และงานอื่น ๆ ที่ขับเคลื่อนด้วยข้อมูลเป็นหลัก ช่วยให้ผู้ใช้สามารถพัฒนาและแสดงทักษะ AI ของตนได้
สถาบันอัลเลนเพื่อ AI	Allen Institute for AI มีกระดานผู้นำและเกณฑ์มาตรฐานในงานด้านความเข้าใจภาษาธรรมชาติ การใช้เหตุผลทั่วไป และด้านอื่นๆ ในการวิจัย AI
โคดาเบนช์	Codbench เป็นแพลตฟอร์มโอเพ่นซอร์สสำหรับการเปรียบเทียบโมเดล AI ช่วยให้ปรับแต่งได้และท้าทายโดยผู้ใช้ในโดเมน AI ต่างๆ
DataFountain	DataFountain เป็นแพลตฟอร์มการแข่งขัน AI ของจีนที่มีความท้าทายในด้านการเงิน การดูแลสุขภาพ และเมืองอัจฉริยะ ซึ่งสนับสนุนการแก้ปัญหาที่เกี่ยวข้องกับอุตสาหกรรม
ข้อมูลขับเคลื่อน	DrivenData โฮสต์ความท้าทายด้านแมชชีนเลิร์นนิงพร้อมผลกระทบทางสังคม โดยมีเป้าหมายเพื่อแก้ไขปัญหาในด้านต่างๆ เช่น สาธารณสุข การบรรเทาภัยพิบัติ และการพัฒนาที่ยั่งยืน
ไดนาเบนช์	Dynabench นำเสนอเกณฑ์มาตรฐานแบบไดนามิกซึ่งมีการประเมินแบบจำลองอย่างต่อเนื่อง ซึ่งมักจะเกี่ยวข้องกับการโต้ตอบของมนุษย์ เพื่อให้มั่นใจถึงความแข็งแกร่งในการพัฒนางาน AI
เอวาล เอไอ	EvalAI เป็นแพลตฟอร์มสำหรับการโฮสต์และมีส่วนร่วมในความท้าทายด้าน AI ซึ่งนักวิจัยใช้กันอย่างแพร่หลายในการเปรียบเทียบแบบจำลองในงานต่างๆ เช่น การจำแนกภาพ NLP และการเรียนรู้แบบเสริมกำลัง
ความท้าทายที่ยิ่งใหญ่	Grand Challenge เป็นแพลตฟอร์มสำหรับความท้าทายด้านการถ่ายภาพทางการแพทย์ ซึ่งสนับสนุนความก้าวหน้าใน AI ทางการแพทย์ โดยเฉพาะอย่างยิ่งในด้านต่างๆ เช่น รังสีวิทยาและพยาธิวิทยา
ฮิลติ	Hilti จัดการกับความท้าทายที่มุ่งพัฒนา AI และการเรียนรู้ของเครื่องจักรในอุตสาหกรรมการก่อสร้าง โดยมุ่งเน้นไปที่การใช้งานจริงและเกี่ยวข้องกับอุตสาหกรรม
InsightFace	InsightFace มุ่งเน้นไปที่ความท้าทายของ AI ที่เกี่ยวข้องกับการจดจำใบหน้า การตรวจสอบ และการวิเคราะห์ ซึ่งสนับสนุนความก้าวหน้าในการตรวจสอบตัวตนและความปลอดภัย
กากเกิล	Kaggle เป็นหนึ่งในแพลตฟอร์มที่ใหญ่ที่สุดสำหรับการแข่งขันด้านวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่องจักร ครอบคลุมหัวข้อต่างๆ มากมายตั้งแต่การจัดหมวดหมู่รูปภาพไปจนถึง NLP และการสร้างแบบจำลองเชิงคาดการณ์
nuScenes	nuScenes ช่วยให้นักวิจัยศึกษาสถานการณ์การขับขี่ในเมืองที่ท้าทายโดยใช้ชุดเซ็นเซอร์เต็มรูปแบบของรถยนต์ไร้คนขับจริง ซึ่งอำนวยความสะดวกในการวิจัยเกี่ยวกับการขับขี่อัตโนมัติ
การแข่งขันการอ่านที่แข็งแกร่ง	การอ่านที่มีประสิทธิภาพหมายถึงสาขาการวิจัยเกี่ยวกับการตีความการสื่อสารที่เป็นลายลักษณ์อักษรในสภาพแวดล้อมที่ไม่มีข้อจำกัด โดยการแข่งขันมุ่งเน้นไปที่การจดจำข้อความในสภาพแวดล้อมจริง
เทียนฉือ	Tianchi ซึ่งจัดโดยอาลีบาบา นำเสนอการแข่งขัน AI ที่หลากหลาย ซึ่งได้รับความนิยมเป็นพิเศษในเอเชีย โดยมุ่งเน้นไปที่การค้า การดูแลสุขภาพ และโลจิสติกส์

อันดับ

การจัดอันดับโมเดล

ครอบคลุม

ชื่อ	คำอธิบาย
การวิเคราะห์ประดิษฐ์	การวิเคราะห์ประดิษฐ์เป็นแพลตฟอร์มที่ช่วยให้ผู้ใช้ตัดสินใจอย่างมีข้อมูลเกี่ยวกับการเลือกโมเดล AI และผู้ให้บริการโฮสต์
เข็มทิศอันดับ	CompassRank เป็นแพลตฟอร์มที่นำเสนอการอ้างอิงการประเมินที่ครอบคลุม เป็นกลาง และเป็นกลางของ mdoels พื้นฐานสำหรับอุตสาหกรรมและการวิจัย
ธงEval	FlagEval เป็นแพลตฟอร์มที่ครอบคลุมสำหรับการประเมินโมเดลพื้นฐาน
กระดานผู้นำ AI เจนเนอเรชั่น	กระดานผู้นำ Generative AI จัดอันดับโมเดล AI เชิงสร้างสรรค์ที่มีประสิทธิภาพสูงสุดโดยพิจารณาจากตัวชี้วัดต่างๆ
การประเมินแบบองค์รวมของแบบจำลองภาษา	การประเมินแบบจำลองภาษาแบบองค์รวม (HELM) เป็นกรอบงานที่สามารถทำซ้ำได้และโปร่งใสสำหรับการประเมินแบบจำลองพื้นฐาน
เอกสารพร้อมรหัส	Papers With Code นำเสนอลีดเดอร์บอร์ดและการวัดประสิทธิภาพแบบโอเพ่นซอร์ส เชื่อมโยงเอกสารการวิจัย AI ด้วยโค้ดเพื่อส่งเสริมความโปร่งใสและความสามารถในการทำซ้ำในการเรียนรู้ของเครื่อง
ซุปเปอร์คลู	SuperCLUE คือชุดเกณฑ์มาตรฐานสำหรับการประเมินแบบจำลองรากฐานของจีน
ลีดเดอร์บอร์ด Vellum LLM	กระดานผู้นำ Vellum LLM แสดงการเปรียบเทียบความสามารถ ราคา และกรอบเวลาบริบทสำหรับ LLM เชิงพาณิชย์และโอเพ่นซอร์สชั้นนำ

ข้อความ

ชื่อ	คำอธิบาย
แอคลู	ACLUE เป็นเกณฑ์มาตรฐานการประเมินความเข้าใจภาษาจีนโบราณ
ลีดเดอร์บอร์ดประเมิน LLM ภาษาแอฟริกัน	กระดานผู้นำการประเมินผล LLM ภาษาแอฟริกันติดตามความคืบหน้าและจัดอันดับประสิทธิภาพของ LLM ในภาษาแอฟริกัน
บอร์ดตัวแทน	AgentBoard เป็นเกณฑ์มาตรฐานสำหรับตัวแทน LLM แบบหลายรอบ เสริมด้วยคณะกรรมการประเมินผลเชิงวิเคราะห์สำหรับการประเมินแบบจำลองโดยละเอียด นอกเหนือจากอัตราความสำเร็จขั้นสุดท้าย
เอจีวัล	AGIEval เป็นเกณฑ์มาตรฐานที่เน้นมนุษย์เป็นศูนย์กลางในการประเมินความสามารถทั่วไปของแบบจำลองพื้นฐานในงานที่เกี่ยวข้องกับการรับรู้และการแก้ปัญหาของมนุษย์
ลีดเดอร์บอร์ดของ Aiera	บอร์ดผู้นำ Aiera ประเมินประสิทธิภาพของ LLM ในงานข่าวกรองทางการเงิน รวมถึงการมอบหมายวิทยากร การระบุการเปลี่ยนวิทยากร การสรุปเชิงนามธรรม การถามตอบตามการคำนวณ และการแท็กความคิดเห็นทางการเงิน
AIR-ม้านั่ง	AIR-Bench เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการดึงข้อมูลที่แตกต่างกันของโมเดลภาษา
ลีดเดอร์บอร์ดคะแนนพลังงาน AI	กระดานผู้นำคะแนนพลังงาน AI ติดตามและเปรียบเทียบรุ่นต่างๆ ในด้านประสิทธิภาพการใช้พลังงาน
ai-benchmarks	ai-benchmarks มีผลการประเมินจำนวนหนึ่งสำหรับเวลาแฝงในการตอบสนองของบริการ AI ยอดนิยม
จัดตำแหน่งBench	AlignBench เป็นเกณฑ์มาตรฐานหลายมิติสำหรับประเมินการจัดตำแหน่ง LLM ในภาษาจีน
อัลปาก้าEval	AlpacaEval เป็นตัวประเมินอัตโนมัติที่ออกแบบมาสำหรับ LLM ที่ปฏิบัติตามคำแนะนำ
อังโก	ANGO เป็นเกณฑ์มาตรฐานการประเมินแบบจำลองภาษาจีนที่มุ่งเน้นรุ่น
กระดานผู้นำ Tokenizers ภาษาอาหรับ	กระดานผู้นำ Tokenizers ภาษาอาหรับเปรียบเทียบประสิทธิภาพของ LLM ในการแยกวิเคราะห์ภาษาอาหรับในภาษาถิ่นและรูปแบบต่างๆ
อารีน่า-ฮาร์ด-ออโต้	Arena-Hard-Auto เป็นเกณฑ์มาตรฐานสำหรับ LLM ที่ปรับแต่งตามคำสั่ง
การแข่งขันอัตโนมัติ	AutoRace มุ่งเน้นไปที่การประเมินโดยตรงของห่วงโซ่การใช้เหตุผล LLM ด้วยเมตริก AutoRace (การประเมินห่วงโซ่การใช้เหตุผลอัตโนมัติ)
ออโต้อารีน่า	สนามประลองอัตโนมัติเป็นเกณฑ์มาตรฐานที่ตัวแทนโมเดลภาษาต่างๆ เข้าร่วมการต่อสู้แบบเพียร์กันเพื่อประเมินประสิทธิภาพของพวกเขา
ออโต้-เจ	Auto-J โฮสต์ผลการประเมินในการเปรียบเทียบการตอบสนองแบบคู่และงานสร้างคำวิจารณ์
บาบิลอง	BABILong เป็นเกณฑ์มาตรฐานสำหรับการประเมินประสิทธิภาพของแบบจำลองภาษาในการประมวลผลเอกสารที่มีความยาวตามอำเภอใจพร้อมข้อเท็จจริงที่กระจายอยู่
ธนาคารกรุงเทพ	BBL (BIG-bench Lite) เป็นชุดย่อยเล็กๆ ของงาน JSON ที่หลากหลาย 24 งานจาก BIG-bench ได้รับการออกแบบมาเพื่อให้การวัดประสิทธิภาพของโมเดลเป็นที่ยอมรับ ในขณะที่ราคาถูกกว่าการประเมินมากกว่าชุดงานเชิงโปรแกรมและ JSON มากกว่า 200 รายการใน BIG-bench
จงซื่อสัตย์	BeHonest เป็นเกณฑ์มาตรฐานในการประเมินความซื่อสัตย์ - การตระหนักถึงขอบเขตความรู้ (ความรู้ในตนเอง) การหลีกเลี่ยงการหลอกลวง (การไม่หลอกลวง) และความสม่ำเสมอในการตอบสนอง (ความสม่ำเสมอ) - ใน LLM
เบนเบนช์	BenBench เป็นเกณฑ์มาตรฐานในการประเมินขอบเขตที่ LLM ดำเนินการฝึกอบรมแบบคำต่อคำในชุดการฝึกอบรมของเกณฑ์มาตรฐานมากกว่าชุดทดสอบเพื่อเพิ่มขีดความสามารถ
เบ็น เช็กมาร์ค	BenCzechMark (BCM) เป็นเกณฑ์มาตรฐานภาษาเช็กแบบมัลติทาสก์และหลายเมตริกสำหรับ LLM พร้อมระบบการให้คะแนนที่เป็นเอกลักษณ์ซึ่งใช้ทฤษฎีนัยสำคัญทางสถิติ
BiGGen-ม้านั่ง	BiGGen-Bench เป็นเกณฑ์มาตรฐานที่ครอบคลุมในการประเมิน LLM ในงานที่หลากหลาย
บอทแชท	BotChat เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการสนทนาแบบหลายรอบของ LLM ผ่านงานพร็อกซี
CaselawQA	CaselawQA เป็นเกณฑ์มาตรฐานที่ประกอบด้วยงานการจำแนกประเภททางกฎหมายที่ได้มาจากฐานข้อมูลทางกฎหมายของศาลฎีกาและศาลอุทธรณ์ซองเกอร์
ซีเอฟแอล	CFLUE เป็นเกณฑ์มาตรฐานในการประเมินความเข้าใจและความสามารถในการประมวลผลของ LLM ในโดเมนทางการเงินของจีน
Ch3Ef	Ch3Ef เป็นเกณฑ์มาตรฐานในการประเมินความสอดคล้องกับความคาดหวังของมนุษย์ โดยใช้ตัวอย่างที่มีคำอธิบายประกอบโดยมนุษย์ 1,002 ตัวอย่างใน 12 โดเมน และ 46 งานตามหลักการ hhh
ศูนย์กลางห่วงโซ่แห่งความคิด	Chain-of-Thought Hub เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการให้เหตุผลของ LLM
แชทบอทอารีน่า	Chatbot Arena เป็นเจ้าภาพจัดงานแชทบอทที่ LLM ต่างๆ แข่งขันกันตามความพึงพอใจของผู้ใช้
เคมเบนช์	ChemBench เป็นเกณฑ์มาตรฐานในการประเมินความรู้ทางเคมีและความสามารถในการให้เหตุผลของ LLM
ภาษาจีนอย่างง่ายQA	Chinese SimpleQA เป็นเกณฑ์มาตรฐานของจีนในการประเมินความสามารถด้านความเป็นจริงของแบบจำลองภาษาในการตอบคำถามสั้นๆ
กระดานผู้นำ CLEM	CLEM เป็นเฟรมเวิร์กที่ออกแบบมาเพื่อการประเมินอย่างเป็นระบบของ LLM ที่เพิ่มประสิทธิภาพการแชทในฐานะตัวแทนการสนทนา
คลีวา	CLEVA เป็นเกณฑ์มาตรฐานในการประเมิน LLM ในงาน 31 งานโดยใช้ข้อความค้นหาภาษาจีน 370,000 รายการจากชุดข้อมูลที่หลากหลาย 84 ชุดและตัววัด 9 ตัว
ลีดเดอร์บอร์ดโมเดลจีนขนาดใหญ่	บอร์ดผู้นำโมเดลขนาดใหญ่ของจีนเป็นแพลตฟอร์มสำหรับประเมินประสิทธิภาพของ LLM ของจีน
ซีเอ็มบี	CMB เป็นเกณฑ์มาตรฐานทางการแพทย์หลายระดับในภาษาจีน
ซีเอ็มเอ็มแอลยู	CMMLU เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพของ LLM ในวิชาต่างๆ ภายในบริบทวัฒนธรรมจีน
CMMU	CMMMU เป็นเกณฑ์มาตรฐานในการประเมิน LMM ในงานที่ต้องการความรู้ในวิชาระดับวิทยาลัยและการให้เหตุผลโดยเจตนาในบริบทของจีน
สามัญพล	CommonGen เป็นเกณฑ์มาตรฐานในการประเมินการให้เหตุผลทั่วไปเชิงกำเนิดโดยเครื่องทดสอบเกี่ยวกับความสามารถในการเขียนประโยคที่สอดคล้องกันโดยใช้ชุดแนวคิดทั่วไปที่กำหนด
คอมมิกซ์	CompMix เป็นเกณฑ์มาตรฐานสำหรับการตอบคำถามที่ต่างกัน
ลีดเดอร์บอร์ดอัตราการบีบอัด	กระดานผู้นำอัตราการบีบอัดมีจุดมุ่งหมายเพื่อประเมินประสิทธิภาพของโทเค็นไนเซอร์ในภาษาต่างๆ
ลีดเดอร์บอร์ดการบีบอัด	กระดานผู้นำการบีบอัดเป็นแพลตฟอร์มสำหรับประเมินประสิทธิภาพการบีบอัดของ LLM
CopyBench	CopyBench เป็นเกณฑ์มาตรฐานในการประเมินพฤติกรรมการคัดลอกและประโยชน์ของโมเดลภาษา ตลอดจนประสิทธิผลของวิธีการในการลดความเสี่ยงด้านลิขสิทธิ์
โคตาอีวาล	CoTaEval เป็นเกณฑ์มาตรฐานในการประเมินความเป็นไปได้และผลข้างเคียงของวิธีการลบลิขสิทธิ์สำหรับ LLM
ConvRe	ConvRe เป็นเกณฑ์มาตรฐานในการประเมินความสามารถของ LLM ในการทำความเข้าใจความสัมพันธ์แบบสนทนา
นักวิจารณ์ประเมินผล	CriticEval เป็นเกณฑ์มาตรฐานในการประเมินความสามารถของ LLM ในการตอบสนองต่อคำวิจารณ์
CS-Bench	CS-Bench เป็นเกณฑ์มาตรฐานสองภาษาที่ออกแบบมาเพื่อประเมินประสิทธิภาพของ LLM ในสาขาย่อยด้านวิทยาการคอมพิวเตอร์ 26 สาขา โดยมุ่งเน้นที่ความรู้และการให้เหตุผล
น่ารัก	CUTE เป็นเกณฑ์มาตรฐานในการทดสอบความรู้ orthographic ของ LLM
ไซเบอร์เมตริก	CyberMetric เป็นเกณฑ์มาตรฐานในการประเมินความรู้ด้านความปลอดภัยทางไซเบอร์ของ LLM
เช็กBench	CzechBench เป็นเกณฑ์มาตรฐานในการประเมินโมเดลภาษาเช็ก
ซี-อีวาล	C-Eval เป็นชุดประเมินผลภาษาจีนสำหรับ LLM
กระดานผู้นำอารีน่าแบบกระจายอำนาจ	Decentralized Arena เป็นเจ้าภาพแพลตฟอร์มที่มีการกระจายอำนาจและเป็นประชาธิปไตยสำหรับการประเมิน LLM ทำให้เป็นอัตโนมัติและปรับขนาดการประเมินในมิติที่หลากหลายและกำหนดโดยผู้ใช้ รวมถึงคณิตศาสตร์ ตรรกะ และวิทยาศาสตร์
การถอดรหัสความน่าเชื่อถือ	DecodingTrust เป็นแพลตฟอร์มในการประเมินความน่าเชื่อถือของ LLM
กระดานผู้นำโดเมน LLM	Domain LLM Leaderboard เป็นแพลตฟอร์มสำหรับประเมินความนิยมของ LLM เฉพาะโดเมน
ลีดเดอร์บอร์ดสถานการณ์องค์กร	Enterprise Scenarios Leaderboard ติดตามและประเมินประสิทธิภาพของ LLM ในกรณีการใช้งานระดับองค์กรในโลกแห่งความเป็นจริง
EQ-ม้านั่ง	EQ-Bench เป็นเกณฑ์มาตรฐานในการประเมินแง่มุมของความฉลาดทางอารมณ์ใน LLM
ลีดเดอร์บอร์ด LLM ของยุโรป	กระดานผู้นำ LLM ของยุโรปติดตามและเปรียบเทียบประสิทธิภาพของ LLM ในภาษายุโรป
EvalGPT.ai	EvalGPT.ai เป็นเจ้าภาพเวทีแชทบอทเพื่อเปรียบเทียบและจัดอันดับประสิทธิภาพของ LLM
อีวาล อารีน่า	Eval Arena วัดระดับเสียง คุณภาพของแบบจำลอง และคุณภาพเกณฑ์มาตรฐานโดยการเปรียบเทียบคู่ของแบบจำลองกับเกณฑ์มาตรฐานการประเมิน LLM ต่างๆ ด้วยการวิเคราะห์ระดับตัวอย่างและการเปรียบเทียบแบบคู่
กระดานผู้นำข้อเท็จจริง	Factuality Leaderboard เปรียบเทียบความสามารถด้านข้อเท็จจริงของ LLM
FanOutQA	FanOutQA เป็นเกณฑ์มาตรฐานคุณภาพสูงแบบหลายฮอปและหลายเอกสารสำหรับ LLM โดยใช้วิกิพีเดียภาษาอังกฤษเป็นฐานความรู้
FastEval	FastEval เป็นชุดเครื่องมือสำหรับการประเมินโมเดลภาษาตามคำสั่งและภาษาแชทอย่างรวดเร็วบนเกณฑ์มาตรฐานต่างๆ พร้อมการอนุมานที่รวดเร็วและข้อมูลเชิงลึกด้านประสิทธิภาพโดยละเอียด
เฟลม	FELM เป็นเกณฑ์มาตรฐานเมตาเพื่อประเมินเกณฑ์มาตรฐานการประเมินข้อเท็จจริงสำหรับ LLM
ฟินอีวาล	FinEval เป็นเกณฑ์มาตรฐานในการประเมินความรู้ด้านการเงินใน LLM
ลีดเดอร์บอร์ดที่ปรับแต่งอย่างละเอียด	ลีดเดอร์บอร์ดการปรับแต่งอย่างละเอียดเป็นแพลตฟอร์มสำหรับจัดอันดับและแสดงโมเดลที่ได้รับการปรับแต่งอย่างละเอียดโดยใช้ชุดข้อมูลหรือเฟรมเวิร์กโอเพ่นซอร์ส
เปลวไฟ	Flames เป็นเกณฑ์มาตรฐานของจีนที่มีความขัดแย้งสูงในการประเมินการจัดวางคุณค่าของ LLM ในด้านความยุติธรรม ความปลอดภัย ศีลธรรม ความถูกต้องตามกฎหมาย และการปกป้องข้อมูล
ติดตามBench	FollowBench เป็นข้อจำกัดแบบละเอียดหลายระดับที่เป็นไปตามเกณฑ์มาตรฐานเพื่อประเมินความสามารถในการปฏิบัติตามคำสั่งของ LLM
ชุดข้อมูลคำถามต้องห้าม	ชุดข้อมูลคำถามต้องห้ามเป็นเกณฑ์มาตรฐานที่มีคำถาม 160 ข้อจาก 160 หมวดหมู่ที่ถูกละเมิด โดยมีเป้าหมายที่สอดคล้องกันสำหรับการประเมินวิธีการเจลเบรก
รีวิวฟิวส์	FuseReviews มุ่งหวังที่จะพัฒนางานการสร้างข้อความที่มีพื้นฐานมาจากพื้นฐาน รวมถึงการตอบคำถามและการสรุปในรูปแบบยาว
ไกอา	GAIA มีเป้าหมายเพื่อทดสอบความสามารถพื้นฐานที่ผู้ช่วย AI ควรมี
กาวี	GAVIE เป็นเกณฑ์มาตรฐานที่ได้รับความช่วยเหลือจาก GPT-4 สำหรับการประเมินอาการประสาทหลอนใน LMM โดยการให้คะแนนความแม่นยำและความเกี่ยวข้องโดยไม่ต้องอาศัยความจริงพื้นฐานที่มีคำอธิบายประกอบโดยมนุษย์
GPT-Fathom	GPT-Fathom เป็นชุดการประเมิน LLM ซึ่งเปรียบเทียบ LLM ชั้นนำกว่า 10 รายการ รวมถึงโมเดลดั้งเดิมของ OpenAI บนการวัดประสิทธิภาพที่รวบรวมไว้มากกว่า 20 รายการใน 7 หมวดหมู่ความสามารถ ทั้งหมดอยู่ภายใต้การตั้งค่าที่สอดคล้องกัน
GrailQA	การตอบคำถามแบบทั่วไปอย่างยิ่ง (GrailQA) เป็นเกณฑ์มาตรฐานขนาดใหญ่และมีคุณภาพสูงสำหรับการตอบคำถามบนฐานความรู้ (KBQA) บน Freebase โดยมีคำถาม 64,331 ข้อที่มีทั้งคำตอบและรูปแบบตรรกะที่สอดคล้องกันในรูปแบบที่แตกต่างกัน (เช่น SPARQL, S-expression ฯลฯ)
GTBench	GTBench เป็นเกณฑ์มาตรฐานในการประเมินและจัดอันดับความสามารถในการให้เหตุผลของ LLM ในสภาพแวดล้อมที่มีการแข่งขันผ่านงานทางทฤษฎีเกม เช่น เกมกระดานและเกมไพ่
ลีดเดอร์บอร์ด Guerra LLM AI	Guerra LLM AI Leaderboard เปรียบเทียบและจัดอันดับประสิทธิภาพของ LLM ในด้านคุณภาพ ราคา ประสิทธิภาพ หน้าต่างบริบท และอื่นๆ
ลีดเดอร์บอร์ดภาพหลอน	กระดานผู้นำภาพหลอนมีจุดมุ่งหมายเพื่อติดตาม จัดอันดับ และประเมินภาพหลอนใน LLM
ฮาลูคิวเอ	HalluQA เป็นเกณฑ์มาตรฐานในการประเมินปรากฏการณ์ภาพหลอนใน LLM ของจีน
กระดานผู้นำภาษาฮิบรู LLM	บอร์ดผู้นำภาษาฮิบรู LLM ติดตามและจัดอันดับโมเดลภาษาตามความสำเร็จในงานต่างๆ ในภาษาฮิบรู
HellaSwag	HellaSwag เป็นเกณฑ์มาตรฐานในการประเมินการใช้เหตุผลทั่วไปใน LLM
ลีดเดอร์บอร์ดแบบจำลองการประเมินอาการประสาทหลอนของฮิวจ์	ลีดเดอร์บอร์ดแบบจำลองการประเมินภาพประสาทหลอนของ Hughes เป็นแพลตฟอร์มสำหรับประเมินความถี่ที่แบบจำลองภาษาทำให้เกิดภาพหลอนเมื่อสรุปเอกสาร
ลีดเดอร์บอร์ด LLM ไอซ์แลนด์	กระดานผู้นำ LLM ของไอซ์แลนด์ติดตามและเปรียบเทียบแบบจำลองในงานภาษาไอซ์แลนด์
IFval	IFEval เป็นเกณฑ์มาตรฐานในการประเมินคำสั่งของ LLM ตามความสามารถพร้อมคำแนะนำที่ตรวจสอบได้
อิล-ทูร์	IL-TUR เป็นเกณฑ์มาตรฐานสำหรับการประเมินโมเดลภาษาในงานที่ใช้ภาษาเดียวและหลายภาษาที่เน้นการทำความเข้าใจและการให้เหตุผลในเอกสารทางกฎหมายของอินเดีย
ลีดเดอร์บอร์ด LLM ของอินเดีย	Indic LLM Leaderboard เป็นแพลตฟอร์มสำหรับติดตามและเปรียบเทียบประสิทธิภาพของ Indic LLM
ลีดเดอร์บอร์ด Indico LLM	Indico LLM Leaderboard ประเมินและเปรียบเทียบความแม่นยำของโมเดลภาษาต่างๆ จากผู้ให้บริการ ชุดข้อมูล และความสามารถ เช่น การจัดประเภทข้อความ การดึงข้อมูลหลัก และการสรุปเชิงสร้างสรรค์
InstructEval	InstructEval เป็นชุดประเมินวิธีการเลือกคำสั่งในบริบทของ LLM
ลีดเดอร์บอร์ด LLM ของอิตาลี	LLM-ลีดเดอร์บอร์ดภาษาอิตาลีติดตามและเปรียบเทียบ LLM ในงานภาษาอิตาลี
JailbreakBench	JailbreakBench เป็นเกณฑ์มาตรฐานสำหรับการประเมินช่องโหว่ของ LLM ผ่านการแจ้งของฝ่ายตรงข้าม
สนามกีฬา Chatbot ของญี่ปุ่น	Japanese Chatbot Arena เป็นเจ้าภาพจัดงาน Chatbot Arena ซึ่ง LLM ต่างๆ แข่งขันกันตามประสิทธิภาพในภาษาญี่ปุ่น
แบบจำลองการประเมินทางการเงินแบบจำลองภาษาญี่ปุ่น	สายรัดการประเมินแบบจำลองทางการเงินภาษาญี่ปุ่นเป็นสายรัดสำหรับการประเมินแบบจำลองภาษาญี่ปุ่นในโดเมนทางการเงิน
เกณฑ์มาตรฐานการสวมบทบาท LLM ของญี่ปุ่น	เกณฑ์มาตรฐานการสวมบทบาท LLM ของญี่ปุ่นเป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพของ LLM ของญี่ปุ่นในการสวมบทบาทตัวละคร
JMED-LLM	JMED-LLM (ชุดข้อมูลการประเมินทางการแพทย์ของญี่ปุ่นสำหรับแบบจำลองภาษาขนาดใหญ่) เป็นเกณฑ์มาตรฐานสำหรับการประเมิน LLM ในสาขาการแพทย์ของภาษาญี่ปุ่น
เจมมู	JMMMU (MMMU ภาษาญี่ปุ่น) เป็นเกณฑ์มาตรฐานหลายรูปแบบเพื่อประเมินประสิทธิภาพของ LMM ในภาษาญี่ปุ่น
จัสท์อีวาล	JustEval เป็นเครื่องมืออันทรงพลังที่ออกแบบมาเพื่อการประเมิน LLM แบบละเอียด
โคล่า	KoLA เป็นเกณฑ์มาตรฐานในการประเมินความรู้ระดับโลกของ LLM
โคมไฟ	LaMP (การปรับแต่งโมเดลภาษา) เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการปรับแต่งส่วนบุคคลของโมเดลภาษา
สภาโมเดลภาษา	Language Model Council (LMC) เป็นเกณฑ์มาตรฐานในการประเมินงานที่มีความเป็นอัตวิสัยสูงและมักจะขาดข้อตกลงของมนุษย์เป็นหลัก
กฎหมายBench	LawBench เป็นเกณฑ์มาตรฐานในการประเมินความสามารถทางกฎหมายของ LLM
ลาลีดเดอร์บอร์ด	La Leaderboard ประเมินและติดตามการท่องจำ LLM การใช้เหตุผล และความสามารถทางภาษาในสเปน LATAM และแคริบเบียน
ลอจิกก	LogicKor เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการคิดแบบสหสาขาวิชาชีพของ LLM ของเกาหลี
กระดานผู้นำ LongICL	LongICL Leaderboard เป็นแพลตฟอร์มสำหรับประเมินการประเมินการเรียนรู้ในบริบทแบบยาวสำหรับ LLM
ลูเกิล	LooGLE เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการทำความเข้าใจบริบทที่ยาวนานของ LLM
ลาอิว	LAiW เป็นเกณฑ์มาตรฐานในการประเมินความเข้าใจและการใช้เหตุผลด้านกฎหมายของจีน
ชุดเปรียบเทียบ LLM	LLM Benchmarker Suite เป็นเกณฑ์มาตรฐานในการประเมินความสามารถที่ครอบคลุมของ LLM
การประเมินแบบจำลองภาษาขนาดใหญ่ในบริบทภาษาอังกฤษ	การประเมินแบบจำลองภาษาขนาดใหญ่ในบริบทภาษาอังกฤษเป็นแพลตฟอร์มสำหรับประเมิน LLM ในบริบทภาษาอังกฤษ
การประเมินแบบจำลองภาษาขนาดใหญ่ในบริบทภาษาจีน	การประเมินแบบจำลองภาษาขนาดใหญ่ในบริบทภาษาจีนเป็นแพลตฟอร์มสำหรับประเมิน LLM ในบริบทภาษาจีน
ราศีตุลย์	LIBRA เป็นเกณฑ์มาตรฐานสำหรับการประเมินความสามารถของ LLM ในการทำความเข้าใจและประมวลผลข้อความภาษารัสเซียขนาดยาว
ลีดเดอร์บอร์ด LibrAI-Eval GenAI	กระดานผู้นำ LibrAI-Eval GenAI มุ่งเน้นไปที่ความสมดุลระหว่างความสามารถของ LLM และความปลอดภัยของภาษาอังกฤษ
ไลฟ์เบนช์	LiveBench เป็นเกณฑ์มาตรฐานสำหรับ LLM ที่จะลดการปนเปื้อนของชุดทดสอบ และเปิดใช้งานการประเมินอัตโนมัติตามวัตถุประสงค์ในงานที่หลากหลายและอัปเดตเป็นประจำ
แอลเอ็มอีวาล	LLMEval เป็นเกณฑ์มาตรฐานในการประเมินคุณภาพของการสนทนาแบบโอเพ่นโดเมนกับ LLM
เลมวัล-เกาเกา2024-คณิต	Llmeval-Gaokao2024-Math เป็นเกณฑ์มาตรฐานสำหรับการประเมิน LLM เกี่ยวกับปัญหาคณิตศาสตร์ระดับ Gaokao ปี 2024 ในภาษาจีน
ลีดเดอร์บอร์ด LLMHallucination	ลีดเดอร์บอร์ดภาพหลอนประเมิน LLM ตามเกณฑ์มาตรฐานที่เกี่ยวข้องกับภาพหลอน
LLMPerf	LLMPerf เป็นเครื่องมือในการประเมินประสิทธิภาพของ LLM โดยใช้ทั้งการทดสอบโหลดและความถูกต้อง
ลีดเดอร์บอร์ดทำนายความเสี่ยงโรค LLM	ลีดเดอร์บอร์ดทำนายความเสี่ยงโรค LLM เป็นแพลตฟอร์มสำหรับประเมิน LLM เกี่ยวกับการทำนายความเสี่ยงโรค
ลีดเดอร์บอร์ด LLM	LLM Leaderboard ติดตามและประเมินผู้ให้บริการ LLM ทำให้สามารถเลือก API และโมเดลที่เหมาะสมที่สุดสำหรับความต้องการของผู้ใช้
ลีดเดอร์บอร์ด LLM สำหรับ CRM	CRM LLM Leaderboard เป็นแพลตฟอร์มสำหรับประเมินประสิทธิภาพของ LLM สำหรับการใช้งานทางธุรกิจ
หอดูดาว LLM	LLM Observatory เป็นเกณฑ์มาตรฐานที่ประเมินและจัดอันดับ LLM ตามประสิทธิภาพในการหลีกเลี่ยงอคติทางสังคมในหมวดหมู่ต่างๆ เช่น รสนิยมของ LGBTIQ+ อายุ เพศ การเมือง เชื้อชาติ ศาสนา และความกลัวชาวต่างชาติ
กระดานผู้นำราคา LLM	กระดานผู้นำราคา LLM ติดตามและเปรียบเทียบต้นทุน LLM ตามหนึ่งล้านโทเค็น
การจัดอันดับ LLM	LLM Rankings นำเสนอการเปรียบเทียบโมเดลภาษาแบบเรียลไทม์โดยอิงตามการใช้โทเค็นมาตรฐานสำหรับการแจ้งเตือนและการเสร็จสิ้น ซึ่งอัปเดตบ่อยครั้ง
ลีดเดอร์บอร์ดสวมบทบาท LLM	LLM Roleplay Leaderboard ประเมินประสิทธิภาพของมนุษย์และ AI ในเกมมนุษย์หมาป่าทางสังคมเพื่อการพัฒนา NPC
กระดานผู้นำด้านความปลอดภัย LLM	LLM Safety Leaderboard มุ่งหวังที่จะจัดให้มีการประเมินแบบรวมสำหรับความปลอดภัยของโมเดลภาษา
LLM ใช้ลีดเดอร์บอร์ดกรณี	LLM Use Case Leaderboard ติดตามและประเมิน LLM ในกรณีการใช้งานทางธุรกิจ
LLM-AggreFact	LLM-AggreFact เป็นเกณฑ์มาตรฐานการตรวจสอบข้อเท็จจริงที่รวบรวมชุดข้อมูลที่เปิดเผยต่อสาธารณะล่าสุดส่วนใหญ่เกี่ยวกับการประเมินข้อเท็จจริงที่มีเหตุผล
LLM-ลีดเดอร์บอร์ด	LLM-Leaderboard เป็นความพยายามร่วมกันของชุมชนในการสร้างกระดานผู้นำกลางสำหรับ LLM
ลีดเดอร์บอร์ด LLM-Perf	LLM-Perf Leaderboard มุ่งหวังที่จะเปรียบเทียบประสิทธิภาพของ LLM ด้วยฮาร์ดแวร์ แบ็กเอนด์ และการเพิ่มประสิทธิภาพที่แตกต่างกัน
LMExamQA	LMExamQA เป็นเฟรมเวิร์กการเปรียบเทียบโดยที่โมเดลภาษาทำหน้าที่เป็นผู้ตรวจสอบเพื่อสร้างคำถามและประเมินคำตอบในลักษณะอัตโนมัติที่ไม่ต้องอ้างอิงเพื่อการประเมินที่ครอบคลุมและเท่าเทียมกัน
ลองเบนช์	LongBench เป็นเกณฑ์มาตรฐานสำหรับการประเมินความสามารถในการทำความเข้าใจบริบทระยะยาวของ LLM
หลง	Loong เป็นเกณฑ์มาตรฐานที่มีบริบทยาวสำหรับการประเมินความสามารถ QA หลายเอกสารของ LLM ในสถานการณ์ทางการเงิน กฎหมาย และทางวิชาการ
ลีดเดอร์บอร์ด LLM แบบเปิดเชิงปริมาณบิตต่ำ	ลีดเดอร์บอร์ด Open LLM แบบเชิงปริมาณบิตต่ำติดตามและเปรียบเทียบ LLM เชิงปริมาณกับอัลกอริธึมเชิงปริมาณที่แตกต่างกัน
LV-ประเมิน	LV-Eval เป็นเกณฑ์มาตรฐานบริบทแบบยาวที่มีระดับความยาวห้าระดับและเทคนิคขั้นสูงสำหรับการประเมิน LLM ที่แม่นยำในงาน QA แบบฮอปเดี่ยวและมัลติฮอปในชุดข้อมูลสองภาษา
ลูซี่เอวาล	LucyEval นำเสนอการประเมินประสิทธิภาพของ LLM อย่างละเอียดในบริบทภาษาจีนต่างๆ
แอล-อีวาล	L-Eval เป็นเกณฑ์มาตรฐานการประเมิน Long Context Language Model (LCLM) เพื่อประเมินประสิทธิภาพการจัดการบริบทที่ครอบคลุม
M3KE	M3KE เป็นเกณฑ์มาตรฐานการประเมินความรู้หลายวิชาหลายระดับขนาดใหญ่เพื่อวัดความรู้ที่ได้รับจาก LLM ของจีน
MetaCritique	MetaCritique เป็นผู้ตัดสินที่สามารถประเมินคำวิจารณ์ที่เขียนโดยมนุษย์หรือ LLM ที่สร้างโดยการสร้างคำวิจารณ์
มิ้นท์	MINT เป็นเกณฑ์มาตรฐานในการประเมินความสามารถของ LLM ในการแก้ปัญหางานที่มีการโต้ตอบหลายรอบโดยใช้เครื่องมือและใช้ประโยชน์จากความคิดเห็นที่เป็นภาษาธรรมชาติ
มิราจ	Mirage เป็นเกณฑ์มาตรฐานสำหรับการสร้างเสริมการเรียกค้นข้อมูลทางการแพทย์ โดยมีคำถาม 7,663 ข้อจากชุดข้อมูล QA ทางการแพทย์ 5 ชุด และทดสอบด้วยการกำหนดค่า 41 รายการโดยใช้ชุดเครื่องมือ MedRag
เมดเบนช์	MedBench เป็นเกณฑ์มาตรฐานในการประเมินความเชี่ยวชาญด้านความรู้และความสามารถในการใช้เหตุผลใน LLM ทางการแพทย์
MedS-ม้านั่ง	MedS-Bench เป็นเกณฑ์มาตรฐานทางการแพทย์ที่ประเมิน LLM ใน 11 หมวดหมู่งานโดยใช้ชุดข้อมูลที่หลากหลาย 39 ชุด
กระดานผู้นำ Meta Open LLM	กระดานผู้นำ Meta Open LLM ทำหน้าที่เป็นศูนย์กลางในการรวบรวมข้อมูลจากกระดานผู้นำ LLM แบบเปิดต่างๆ ไว้ในหน้าการแสดงภาพเดียวที่ใช้งานง่าย
MIMIC กระดานผู้นำการตัดสินใจทางคลินิก	MIMIC Clinical Decision Making Leaderboard ติดตามและประเมิน LLms ในการตัดสินใจทางคลินิกที่สมจริงสำหรับโรคในช่องท้อง
MixEval	MixEval เป็นเกณฑ์มาตรฐานในการประเมิน LLM โดยการผสมผสานเกณฑ์มาตรฐานที่มีอยู่ทั่วไปอย่างมีกลยุทธ์
กระดานผู้นำ ML.ENERGY	ML.ENERGY Leaderboard ประเมินการใช้พลังงานของ LLM
เอ็มเมดเบนช์	MMedBench เป็นเกณฑ์มาตรฐานทางการแพทย์ในการประเมิน LLM ในความเข้าใจหลายภาษา
มจล	MMLU เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพของ LLM ในงานทำความเข้าใจภาษาธรรมชาติที่หลากหลาย
กระดานผู้นำ MMLU ตามงาน	กระดานผู้นำ MMLU ตามงานเป็นแพลตฟอร์มสำหรับการประเมินและเปรียบเทียบโมเดล ML ต่างๆ ในงานทำความเข้าใจภาษาต่างๆ
MMLU-โปร	MMLU-Pro เป็น MMLU เวอร์ชันที่ท้าทายยิ่งกว่าในการประเมินความสามารถในการให้เหตุผลของ LLM
ลีดเดอร์บอร์ด ModelScope LLM	ModelScope LLM Leaderboard เป็นแพลตฟอร์มสำหรับประเมิน LLM อย่างเป็นกลางและครอบคลุม
ลีดเดอร์บอร์ดการประเมินโมเดล	กระดานผู้นำการประเมินโมเดลติดตามและประเมินโมเดลการสร้างข้อความตามประสิทธิภาพในการวัดประสิทธิภาพต่างๆ โดยใช้เฟรมเวิร์ก Mosaic Eval Gauntlet
ลีดเดอร์บอร์ด MSNP	MSNP Leaderboard ติดตามและประเมินประสิทธิภาพของโมเดล GGUF เชิงปริมาณบนการรวม GPU และ CPU ต่างๆ โดยใช้การตั้งค่าโหนดเดียวผ่าน Ollama
เอ็มสเทบ	MSTEB เป็นเกณฑ์มาตรฐานสำหรับการวัดประสิทธิภาพของโมเดลการฝังข้อความในภาษาสเปน
เอ็มเทบี	MTEB เป็นเกณฑ์มาตรฐานขนาดใหญ่สำหรับการวัดประสิทธิภาพของโมเดลการฝังข้อความในงานการฝังที่หลากหลายใน 112 ภาษา
เอ็มเทบี อารีน่า	MTEB Arena เป็นเจ้าภาพจัดการแสดงแบบจำลองสำหรับการประเมินแบบจำลองการฝังแบบไดนามิกในโลกแห่งความเป็นจริง ผ่านการสืบค้นตามผู้ใช้และการเปรียบเทียบการดึงข้อมูล
MT-Bench-101	MT-Bench-101 เป็นเกณฑ์มาตรฐานที่ละเอียดสำหรับการประเมิน LLM ในการสนทนาแบบหลายรอบ
ลีดเดอร์บอร์ด LLM มาเลย์ของฉัน	กระดานผู้นำ LLM ภาษามาเลย์ของฉันมีจุดมุ่งหมายเพื่อติดตาม จัดอันดับ และประเมิน LLM ที่เปิดกว้างเกี่ยวกับงานภาษามาเลย์
โนชา	NoCha เป็นเกณฑ์มาตรฐานในการประเมินว่าโมเดลภาษาที่มีบริบทยาวสามารถตรวจสอบคำกล่าวอ้างที่เขียนเกี่ยวกับหนังสือสมมติได้ดีเพียงใด
NPHardEval	NPHardEval เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการให้เหตุผลของ LLM ผ่านเลนส์ของคลาสความซับซ้อนในการคำนวณ
กระดานผู้นำ Occiglot Euro LLM	กระดานผู้นำ Occiglot Euro LLM เปรียบเทียบ LLM ในสี่ภาษาหลักจากเกณฑ์มาตรฐาน Okapi และ Belebele (ฝรั่งเศส อิตาลี เยอรมัน สเปน และดัตช์)
ม้านั่งโอลิมปิก	OlympiadBench เป็นเกณฑ์มาตรฐานทางวิทยาศาสตร์แบบสองภาษาที่รวบรวมโจทย์คณิตศาสตร์และฟิสิกส์ระดับโอลิมปิกจำนวน 8,476 รายการพร้อมคำอธิบายประกอบการให้เหตุผลระดับผู้เชี่ยวชาญทีละขั้นตอน
โอลิมปิกอารีน่า	OlympicArena เป็นเกณฑ์มาตรฐานในการประเมินความสามารถขั้นสูงของ LLM ในการแข่งขันระดับโอลิมปิกในวงกว้าง
โอบาบูก้า	Oobabooga เป็นเกณฑ์มาตรฐานในการดำเนินการทดสอบประสิทธิภาพแบบทำซ้ำของ LLM ด้วย UI เว็บ oobabooga
OpenEval	OpenEval เป็นแพลตฟอร์มประเมินเพื่อประเมิน LLM ของจีน
กระดานผู้นำตุรกี OpenLLM	กระดานผู้นำ OpenLLM ภาษาตุรกีติดตามความคืบหน้าและจัดอันดับประสิทธิภาพของ LLM ในภาษาตุรกี
ลีดเดอร์บอร์ดแบบเปิดกว้าง	ลีดเดอร์บอร์ดความเปิดกว้างติดตามและประเมินความโปร่งใสของโมเดลในแง่ของการเข้าถึงน้ำหนัก ข้อมูล และใบอนุญาตแบบเปิด เผยให้เห็นโมเดลที่ขาดมาตรฐานของความเปิดกว้าง
ลีดเดอร์บอร์ดแบบเปิดกว้าง	Openness Leaderboard เป็นเครื่องมือที่ติดตามความเปิดกว้างของ LLM ที่ปรับแต่งตามคำสั่ง โดยประเมินความโปร่งใส ข้อมูล และความพร้อมใช้งานของโมเดล
OpenResearcher	OpenResearcher มีผลการเปรียบเทียบบนระบบที่เกี่ยวข้องกับ RAG ต่างๆ เป็นลีดเดอร์บอร์ด
เปิดกระดานผู้นำ LLM ภาษาอาหรับ	กระดานผู้นำ LLM ภาษาอาหรับแบบเปิดติดตามความคืบหน้าและจัดอันดับประสิทธิภาพของ LLM ในภาษาอาหรับ
เปิดกระดานผู้นำ LLM ภาษาจีน	กระดานผู้นำ LLM ภาษาจีนแบบเปิดมีจุดมุ่งหมายเพื่อติดตาม จัดอันดับ และประเมิน LLM ภาษาจีนแบบเปิด
เปิดกระดานผู้นำ CoT	Open CoT Leaderboard ติดตามความสามารถของ LLM ในการสร้างร่องรอยการให้เหตุผลแบบห่วงโซ่ความคิดที่มีประสิทธิภาพ
เปิดกระดานผู้นำการประเมินผล LLM ของดัตช์	กระดานผู้นำการประเมินผล Open Dutch LLM ติดตามความคืบหน้าและจัดอันดับประสิทธิภาพของ LLM ในภาษาดัตช์
เปิดลีดเดอร์บอร์ด LLM ทางการเงิน	Open Financial LLM Leaderboard มีวัตถุประสงค์เพื่อประเมินและเปรียบเทียบประสิทธิภาพของ LLM ทางการเงิน
เปิดลีดเดอร์บอร์ด ITA LLM	Open ITA LLM Leaderboard ติดตามความคืบหน้าและจัดอันดับประสิทธิภาพของ LLM ในภาษาอิตาลี
เปิดกระดานผู้นำ Ko-LLM	Open Ko-LLM Leaderboard ติดตามความคืบหน้าและจัดอันดับประสิทธิภาพของ LLM ในภาษาเกาหลี
เปิดลีดเดอร์บอร์ด LLM	Open LLM Leaderboard ติดตามความคืบหน้าและจัดอันดับประสิทธิภาพของ LLM เป็นภาษาอังกฤษ
เปิดลีดเดอร์บอร์ด Medical-LLM	Open Medical-LLM Leaderboard มีจุดมุ่งหมายเพื่อติดตาม จัดอันดับ และประเมิน LLM แบบเปิดในโดเมนทางการแพทย์
เปิดกระดานผู้นำ MLLM	Open MLLM Leaderboard มีจุดมุ่งหมายเพื่อติดตาม จัดอันดับ และประเมิน LLM และแชทบอท
เปิดกระดานผู้นำ MOE LLM	กระดานผู้นำ OPEN MOE LLM ประเมินประสิทธิภาพและประสิทธิภาพของ Mixture of Experts (MoE) LLM
เปิดกระดานผู้นำการประเมิน LLM หลายภาษา	กระดานผู้นำการประเมิน LLM แบบเปิดหลายภาษาติดตามความคืบหน้าและจัดอันดับประสิทธิภาพของ LLM ในหลายภาษา
เปิดลีดเดอร์บอร์ด PL LLM	กระดานผู้นำ Open PL LLM เป็นแพลตฟอร์มสำหรับประเมินประสิทธิภาพของ LLM ต่างๆ ในภาษาโปแลนด์
เปิดลีดเดอร์บอร์ด LLM ของโปรตุเกส	Open PT LLM Leaderboard มีวัตถุประสงค์เพื่อประเมินและเปรียบเทียบ LLM ในงานภาษาโปรตุเกส
เปิดกระดานผู้นำ LLM ของไต้หวัน	กระดานผู้นำ Open Taiwan LLM จัดแสดงประสิทธิภาพของ LLM ในงานทำความเข้าใจภาษาจีนกลางของไต้หวันต่างๆ
Open-LLM-ลีดเดอร์บอร์ด	Open-LLM-Leaderboard ประเมิน LLM ในการทำความเข้าใจภาษาและการใช้เหตุผลโดยการเปลี่ยนจากคำถามแบบปรนัย (MCQ) มาเป็นคำถามแบบเปิด
แดชบอร์ด OPUS-MT	OPUS-MT Dashboard เป็นแพลตฟอร์มสำหรับติดตามและเปรียบเทียบโมเดลการแปลด้วยเครื่องในคู่ภาษาและตัวชี้วัดต่างๆ
หรือ-ม้านั่ง	OR-Bench เป็นเกณฑ์มาตรฐานในการประเมินการปฏิเสธมากเกินไปของความปลอดภัยที่ได้รับการปรับปรุงใน LLM
พาร์สเบนช์	ParsBench มีชุดเครื่องมือสำหรับการเปรียบเทียบ LLM ตามภาษาเปอร์เซีย
ลีดเดอร์บอร์ด LLM เปอร์เซีย	กระดานผู้นำ LLM เปอร์เซียให้การประเมิน LLM ในภาษาเปอร์เซียที่เชื่อถือได้
กระดานผู้นำพินอคคิโอ ITA	กระดานผู้นำ Pinocchio ITA ติดตามและประเมิน LLM ในภาษาอิตาลี
PL-MTEB	PL-MTEB (Polish Massive Text Embedding Benchmark) เป็นเกณฑ์มาตรฐานสำหรับการประเมินการฝังข้อความในภาษาโปแลนด์ในงาน NLP 28 งาน
ลีดเดอร์บอร์ดการแพทย์โปแลนด์	กระดานผู้นำด้านการแพทย์ของโปแลนด์จะประเมินแบบจำลองภาษาในการสอบรับรองของคณะกรรมการโปแลนด์
ขับเคลื่อนโดย Intel LLM Leaderboard	บอร์ดผู้นำ LLM ที่ขับเคลื่อนโดย Intel จะประเมิน ให้คะแนน และจัดอันดับ LLM ที่ได้รับการฝึกอบรมล่วงหน้าหรือปรับแต่งฮาร์ดแวร์ของ Intel
PubMedQA	PubMedQA เป็นเกณฑ์มาตรฐานในการประเมินการตอบคำถามการวิจัยชีวการแพทย์
พร้อมท์เบนช์	PromptBench เป็นเกณฑ์มาตรฐานในการประเมินความแข็งแกร่งของ LLM บนการแจ้งเตือนของฝ่ายตรงข้าม
QAConv	QAConv เป็นเกณฑ์มาตรฐานสำหรับการตอบคำถามโดยใช้การสนทนาที่ซับซ้อน เฉพาะโดเมน และแบบอะซิงโครนัสเป็นแหล่งความรู้
คุณภาพ	คุณภาพเป็นเกณฑ์มาตรฐานสำหรับการประเมินการตอบคำถามแบบปรนัยด้วยบริบทที่ยาว
กระต่าย	RABBITS เป็นเกณฑ์มาตรฐานในการประเมินความแข็งแกร่งของ LLM โดยประเมินการจัดการคำพ้องความหมาย โดยเฉพาะชื่อแบรนด์และชื่อยาสามัญ
ราคุดะ	Rakuda เป็นเกณฑ์มาตรฐานในการประเมิน LLM โดยพิจารณาจากวิธีการตอบคำถามปลายเปิดเกี่ยวกับหัวข้อญี่ปุ่น
Redteam Arena	RedTeam Arena เป็นแพลตฟอร์มทีมสีแดงสำหรับ LLMS
เกณฑ์มาตรฐานการต่อต้านการเป็นทีม	เกณฑ์มาตรฐานการต่อต้านการเป็นทีมสีแดงเป็นเกณฑ์มาตรฐานในการประเมินความแข็งแกร่งของ LLMs ต่อการแจ้งเตือนการเป็นทีมสีแดง
Rest-MCTS*	REST-MCTS* เป็นวิธีการฝึกอบรมตนเองที่ได้รับการเสริมซึ่งใช้การค้นหาต้นไม้และการอนุมานการให้รางวัลเพื่อรวบรวมร่องรอยการใช้เหตุผลที่มีคุณภาพสูงสำหรับนโยบายการฝึกอบรมและแบบจำลองรางวัลโดยไม่มีคำอธิบายประกอบขั้นตอนด้วยตนเอง
เวทีรีวิว	Reviewer Arena เป็นเจ้าภาพจัดงาน Reviewer Arena ซึ่ง LLMs ต่าง ๆ แข่งขันกันตามการแสดงของพวกเขาในการวิพากษ์วิจารณ์เอกสารวิชาการ
ที่มีบทบาทสำคัญ	Roleval เป็นมาตรฐานสองภาษาเพื่อประเมินการท่องจำการใช้ประโยชน์และความสามารถในการใช้เหตุผลของความรู้บทบาทของ LLM
กระดานผู้นำ RPBench	RPBENCH-AUTO เป็นไปป์ไลน์อัตโนมัติสำหรับการประเมิน LLMS โดยใช้ 80 personae สำหรับตัวละครและ 80 ฉากสำหรับการสวมบทบาทตามฉาก
สนามกีฬา Chatbot Russian	Chatbot Arena เป็นเจ้าภาพจัดงาน Chatbot Arena ที่ LLM ต่างๆแข่งขันกันในรัสเซียตามความพึงพอใจของผู้ใช้
ซุปเปอร์เกลรัสเซีย	Russian Superglue เป็นเกณฑ์มาตรฐานสำหรับแบบจำลองภาษารัสเซียโดยมุ่งเน้นไปที่ตรรกะงานทั่วไปและงานให้เหตุผล
ผู้ตัดสิน R	R-Judge เป็นเกณฑ์มาตรฐานในการประเมินความสามารถของ LLM ในการตัดสินและระบุความเสี่ยงด้านความปลอดภัยที่ได้รับบันทึกการโต้ตอบของตัวแทน
พรอมต์ความปลอดภัย	พรอมต์ความปลอดภัยเป็นมาตรฐานในการประเมินความปลอดภัยของ LLMS ของจีน
ความปลอดภัย	Safetybench เป็นมาตรฐานในการประเมินความปลอดภัยของ LLM
บึงสลัด	Salad-Bench เป็นมาตรฐานสำหรับการประเมินความปลอดภัยและความปลอดภัยของ LLMS
เรื่องอื้อฉาว	Scandeval เป็นมาตรฐานในการประเมิน LLMs เกี่ยวกับงานในภาษาสแกนดิเนเวียเช่นเดียวกับเยอรมันดัตช์และภาษาอังกฤษ
ลีดเดอร์บอร์ดวิทยาศาสตร์	Science Leadyboard เป็นแพลตฟอร์มในการประเมินความสามารถของ LLMS ในการแก้ปัญหาทางวิทยาศาสตร์
sciglm	Sciglm เป็นชุดของแบบจำลองภาษาทางวิทยาศาสตร์ที่ใช้กรอบคำอธิบายประกอบคำสั่งสะท้อนแสงเพื่อเพิ่มการให้เหตุผลทางวิทยาศาสตร์โดยการสร้างและแก้ไขโซลูชันทีละขั้นตอนสำหรับคำถามที่ไม่มีป้ายกำกับ
Sciknoweval	Sciknoweval เป็นเกณฑ์มาตรฐานในการประเมิน LLMS ตามความสามารถของพวกเขาในการศึกษาอย่างกว้างขวางสอบถามอย่างจริงจังคิดอย่างลึกซึ้งฉลาดมองเห็นได้ชัดเจนและฝึกฝนอย่างขยันขันแข็ง
ม้วน	Scrolls เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการใช้เหตุผลของ LLMS ในข้อความยาว
Seaexam	Seaexam เป็นมาตรฐานในการประเมิน LLMs สำหรับภาษาเอเชียตะวันออกเฉียงใต้ (SEA)
บอร์ด LLM SEAL LLM	Seal LLM Leadyboards เป็นแพลตฟอร์มการประเมินส่วนตัวที่ขับเคลื่อนด้วยผู้เชี่ยวชาญสำหรับ LLMS
Seaeval	Seaeval เป็นมาตรฐานในการประเมินประสิทธิภาพของ LLM หลายภาษาในการทำความเข้าใจและให้เหตุผลด้วยภาษาธรรมชาติรวมถึงการปฏิบัติทางวัฒนธรรมความแตกต่างและค่านิยม
หางเสือทะเล	Sea Helm เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพของ LLMS ในงานภาษาอังกฤษและเอเชียตะวันออกเฉียงใต้โดยมุ่งเน้นไปที่การแชทตามความสามารถในการติดตามและความสามารถทางภาษา
seceval	Seceval เป็นมาตรฐานในการประเมินความรู้ด้านความปลอดภัยทางไซเบอร์ของแบบจำลองพื้นฐาน
บอร์ดลีดเดอร์	การปรับปรุงตัวเองลีดเดอร์บอร์ด (SIL) เป็นแพลตฟอร์มแบบไดนามิกที่อัปเดตชุดข้อมูลทดสอบและการจัดอันดับอย่างต่อเนื่องเพื่อให้ข้อมูลเชิงลึกด้านประสิทธิภาพแบบเรียลไทม์สำหรับ LLM และแชทบอทโอเพนซอร์ส
บวชสเป็ค	Spec-Bench เป็นเกณฑ์มาตรฐานในการประเมินวิธีการถอดรหัสการเก็งกำไรในสถานการณ์ที่หลากหลาย
มีโครงสร้าง	StructEval เป็นเกณฑ์มาตรฐานในการประเมิน LLM โดยดำเนินการประเมินที่มีโครงสร้างในหลายระดับความรู้ความเข้าใจและแนวคิดที่สำคัญ
กระดานผู้นำ LLM Subquadratic	กระดานผู้นำ LLM Subquadratic ประเมิน LLM ด้วยสถาปัตยกรรม subquadratic/ปราศจากความสนใจ (เช่น RWKV & MAMBA)
สุดยอด	Superbench เป็นระบบที่ครอบคลุมของงานและขนาดเพื่อประเมินความสามารถโดยรวมของ LLM
ซุปเปอร์	Superglue เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพของ LLMs ในชุดของงานการทำความเข้าใจภาษาที่ท้าทาย
สุดยอด	Superlim เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการทำความเข้าใจภาษาของ LLMS ในสวีเดน
Swahili LLM-Leadererboard	Swahili LLM-Leadererboard เป็นความพยายามของชุมชนร่วมในการสร้างลีดเดอร์บอร์ดกลางหนึ่งแห่งสำหรับ LLM
s-eval	S-EVAL เป็นเกณฑ์มาตรฐานความปลอดภัยที่ครอบคลุมและหลากหลายด้วยการแจ้งเตือน 220,000 รายการที่ออกแบบมาเพื่อประเมินความปลอดภัย LLM ในมิติความเสี่ยงที่หลากหลาย
tableqaeval	TableQaeval เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพ LLM ในการสร้างแบบจำลองตารางยาวและความสามารถด้านความเข้าใจเช่นการใช้เหตุผลเชิงตัวเลขและหลายครั้ง
ททท. DQA	Tat-DQA เป็นมาตรฐานในการประเมิน LLMs ในการให้เหตุผลแบบไม่ต่อเนื่องมากกว่าเอกสารที่รวมข้อมูลทั้งที่มีโครงสร้างและไม่มีโครงสร้าง
ททท.	TAT-QA เป็นมาตรฐานในการประเมิน LLMS ในการใช้เหตุผลแบบไม่ต่อเนื่องมากกว่าเอกสารที่รวมเนื้อหาทั้งแบบตารางและข้อความ
กระดานผู้นำ LLM ไทย	LLM LEADERBOARD ไทยมีจุดมุ่งหมายเพื่อติดตามและประเมิน LLMS ในงานภาษาไทย
กอง	กองเป็นมาตรฐานในการประเมินความรู้และความสามารถในการใช้เหตุผลของโลกของ LLM
เต้าหู้	เต้าหู้เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพการเรียนรู้ของ LLMS ในสถานการณ์จริง
Toloka LLM LEDIONBOARD	Toloka LLM Leadboard เป็นมาตรฐานในการประเมิน LLMS ตามพรอมต์ของผู้ใช้ที่แท้จริงและการประเมินผลของมนุษย์ที่เชี่ยวชาญ
โต๊ะเครื่องมือ	Toolbench เป็นแพลตฟอร์มสำหรับการฝึกอบรมการให้บริการและการประเมิน LLM โดยเฉพาะสำหรับการเรียนรู้เครื่องมือ
กระดานผู้นำความเป็นพิษ	กระดานผู้นำความเป็นพิษประเมินความเป็นพิษของ LLMS
บอร์ดลีดเดอร์ LLM Trustbit	Trustbit LLM Leadboards เป็นแพลตฟอร์มที่ให้มาตรฐานสำหรับการสร้างและการจัดส่งผลิตภัณฑ์ด้วย LLMS
Trustllm	Trustllm เป็นมาตรฐานในการประเมินความน่าเชื่อถือของ LLM
Turingadvice	TuringAdvice เป็นมาตรฐานสำหรับการประเมินความสามารถของแบบจำลองภาษาในการสร้างคำแนะนำที่เป็นประโยชน์สำหรับสถานการณ์จริงและเปิดกว้าง
ครูสอนพิเศษ	Tutoreval เป็นมาตรฐานการตอบคำถามซึ่งประเมินว่า LLM Tutor สามารถช่วยให้ผู้ใช้เข้าใจบทจากตำราวิทยาศาสตร์ได้ดีเพียงใด
t-eval	T-EVAL เป็นมาตรฐานสำหรับการประเมินความสามารถในการใช้เครื่องมือของ LLMS
กระดานผู้นำ UGI	มาตรการกระดานผู้นำ UGI และเปรียบเทียบข้อมูลที่ไม่ถูกตรวจสอบและเป็นที่รู้จักของ LLMS
เป็นพิเศษ	Ultraeval เป็นกรอบโอเพนซอร์ซสำหรับการเปรียบเทียบแบบโปร่งใสและทำซ้ำได้ของ LLMs ในมิติประสิทธิภาพที่หลากหลาย
vals ai	Vals AI เป็นแพลตฟอร์มที่ประเมินความแม่นยำของ AI และประสิทธิภาพในการทำงานทางกฎหมายในโลกแห่งความเป็นจริง
VCR	Visual Pommonsense Reasing (VCR) เป็นเกณฑ์มาตรฐานสำหรับการทำความเข้าใจระดับความรู้ความเข้าใจในระดับความรู้ความเข้าใจซึ่งต้องใช้แบบจำลองเพื่อตอบคำถามภาพและให้เหตุผลสำหรับคำตอบของพวกเขา
Vidore	Vidore เป็นเกณฑ์มาตรฐานในการประเมินแบบจำลองการดึงข้อมูลเกี่ยวกับความสามารถในการจับคู่การสืบค้นกับเอกสารที่เกี่ยวข้องในระดับหน้า
VLLMS LEADERBOARD	VLLMS LEADERBOARD มีจุดมุ่งหมายเพื่อติดตามจัดอันดับและประเมิน LLMS และ ChatBots แบบเปิด
VMLU	VMLU เป็นเกณฑ์มาตรฐานในการประเมินความสามารถโดยรวมของแบบจำลองพื้นฐานในเวียดนาม
Wildbench	Wildbench เป็นมาตรฐานสำหรับการประเมินแบบจำลองภาษาเกี่ยวกับงานที่ท้าทายซึ่งคล้ายกับแอพพลิเคชั่นในโลกแห่งความเป็นจริงอย่างใกล้ชิด
Xiezhi	Xiezhi เป็นมาตรฐานสำหรับการประเมินความรู้โดเมนแบบองค์รวมของ LLMS
Yanolja Arena	Yanolja Arena โฮสต์เวทีแบบจำลองเพื่อประเมินความสามารถของ LLM ในการสรุปและแปลข้อความ
ยังเป็นกระดานผู้นำ LLM อื่น	LLM LEADERBOARD อื่นเป็นแพลตฟอร์มสำหรับการติดตามการจัดอันดับและการประเมิน LLMS และ ChatBots แบบเปิด
zebralogic	Zebralogic เป็นมาตรฐานการประเมินเหตุผลเชิงตรรกะของ LLMS โดยใช้ปริศนากริดลอจิกซึ่งเป็นปัญหาความพึงพอใจของข้อ จำกัด (CSP)
Zerosumeval	Zerosumeval เป็นกรอบการประเมินผลการแข่งขันสำหรับ LLM โดยใช้การจำลองผู้เล่นหลายคนที่มีเงื่อนไขการชนะที่ชัดเจน

ภาพ

ชื่อ	คำอธิบาย
ภาพนามธรรม	ภาพนามธรรมเป็นมาตรฐานในการประเมิน LLMs หลายรูปแบบ (MLLM) ในการทำความเข้าใจและให้เหตุผลเกี่ยวกับภาพนามธรรมเช่นแผนที่แผนภูมิและเลย์เอาต์
Aesbench	Aesbench เป็นเกณฑ์มาตรฐานในการประเมิน MLLMs ในการรับรู้สุนทรียศาสตร์ของภาพ
กระพริบตา	Blink เป็นมาตรฐานในการประเมินความสามารถในการรับรู้ภาพหลักของ MLLMS
Blinkcode	BlinkCode เป็นเกณฑ์มาตรฐานในการประเมิน MLLMS ใน 15 รุ่น Vision-Language (VLMS) และ 9 งานการวัดความแม่นยำและประสิทธิภาพการสร้างภาพ
ใส่ใจ	CARES เป็นมาตรฐานในการประเมินความน่าเชื่อถือของ Med-LVLMS ในความน่าเชื่อถือความเป็นธรรมความปลอดภัยความเป็นส่วนตัวและความทนทานโดยใช้คู่คำถาม 41K จากโมดูลภาพทางการแพทย์ 16 รายการและ 27 ภูมิภาคกายวิภาค
ชาร์ตมิมิก	Chartmimic เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการสร้างรหัสที่มีพื้นดินของโมเดลหลายรูปแบบขนาดใหญ่โดยใช้แผนภูมิและคำแนะนำที่เป็นข้อความ
ความชุ่มชื่น	Charxiv เป็นมาตรฐานในการประเมินความสามารถในการทำความเข้าใจแผนภูมิของ MLLMS
ตามบริบท	บริบทเป็นเกณฑ์มาตรฐานในการประเมิน MLLMS ในงานการให้เหตุผลด้านการมองเห็นที่มีความอ่อนไหวต่อบริบท
Core-MM	Core-MM เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการตอบคำถามด้วยภาพปลายเปิด (VQA) ของ MLLMS
Dreambench ++	Dreambench ++ เป็นเกณฑ์มาตรฐานที่มนุษย์จัดเรียงโดยอัตโนมัติโดยโมเดลหลายรูปแบบสำหรับการสร้างภาพส่วนบุคคล
บึง	Egoplan-Bench เป็นมาตรฐานในการประเมินความสามารถในการวางแผนของ MLLMS ในสถานการณ์จริง
GLITCHBENCH	Glitchbench เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการใช้เหตุผลของ MLLMS ในบริบทของการตรวจจับความผิดพลาดของวิดีโอเกม
Hallusionbench	HallusionBench เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการใช้เหตุผลเชิงบริบทของ MLLMS
infimm-eval	INFIMM-EVAL เป็นมาตรฐานในการประเมินความสามารถ VQA ปลายเปิดของ MLLMS
LRVSF LEADERBOARD	LRVSF Leadyboard เป็นแพลตฟอร์มในการประเมิน LLMs เกี่ยวกับการค้นหาภาพที่คล้ายคลึงกันในแฟชั่น
LVLM LEADERBOARD	LVLM LEADERBOARD เป็นแพลตฟอร์มในการประเมินความสามารถในการใช้เหตุผลของ MLLMS
m3cot	M3COT เป็นเกณฑ์มาตรฐานสำหรับหลายโดเมนหลายขั้นตอนห่วงโซ่ของ MLLM แบบหลายโดเมน
ของที่ระลึก	Mementos เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการใช้เหตุผลของ MLLMS มากกว่าลำดับภาพ
บึง MJ	MJ-Bench เป็นมาตรฐานในการประเมินผู้พิพากษาหลายรูปแบบในการให้ข้อเสนอแนะสำหรับแบบจำลองการสร้างภาพในสี่มุมมองที่สำคัญ: การจัดตำแหน่ง, ความปลอดภัย, คุณภาพของภาพและอคติ
Mllm-as-a-Judge	MLLM-AS-A-Judge เป็นเกณฑ์มาตรฐานที่มีคำอธิบายประกอบของมนุษย์เพื่อประเมินความสามารถในการตัดสินของ MLLMS ในการให้คะแนนการเปรียบเทียบคู่และงานจัดอันดับแบทช์ในหลายโดเมน
มิลลิเมตร	MLLM-BENCH เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการให้เหตุผลด้านภาพของ MLVMS
MMBENCH LEADERBOARD	MMBENCH LEADERBOARD เป็นแพลตฟอร์มในการประเมินความสามารถในการใช้เหตุผลของ MLLMS
mme	MME เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการให้เหตุผลด้านภาพของ MLLMS
Mme-Realworld	MME-REALWORLD เป็นเกณฑ์มาตรฐานขนาดใหญ่และมีความละเอียดสูงที่มีคู่ QA ที่มีข้อสรุปของมนุษย์ 29,429 คู่ใน 43 งาน
MMIU	MMIU (ความเข้าใจหลายภาพ Ultimodal) เป็นเกณฑ์มาตรฐานในการประเมิน MLLMs ใน 7 ความสัมพันธ์หลายภาพ, 52 งาน, ภาพ 77K และคำถามแบบปรนัย 11K
MMMU	MMMU เป็นมาตรฐานในการประเมินประสิทธิภาพของแบบจำลองหลายรูปแบบในงานที่ต้องการความรู้ระดับวิทยาลัยและการใช้เหตุผลระดับผู้เชี่ยวชาญในสาขาวิชาต่างๆ
MMR	MMR เป็นเกณฑ์มาตรฐานในการประเมินความแข็งแกร่งของ MLLMs ในการทำความเข้าใจด้วยภาพโดยการประเมินความสามารถในการจัดการกับคำถามชั้นนำมากกว่าเพียงแค่ความแม่นยำในการตอบ
MMSearch	MMSEARCH เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพการค้นหาหลายรูปแบบของ LMMS
MMSTAR	MMSTAR เป็นเกณฑ์มาตรฐานในการประเมินความสามารถที่หลากหลายของ MLLMS
mmt-bench	MMT-BENCH เป็นเกณฑ์มาตรฐานในการประเมิน MLLMS ในงานที่หลากหลายหลายรูปแบบที่ต้องใช้ความรู้จากผู้เชี่ยวชาญรวมถึงการจดจำภาพการแปลการแปลการให้เหตุผลและการวางแผน
MM-NIAH	MM-NIAH (เข็มใน Haystack แบบหลายรูปแบบ) เป็นมาตรฐานในการประเมินความสามารถของ MLLMS ในการทำความเข้าใจเอกสารหลายรูปแบบที่ยาวนานผ่านการดึงการนับและการให้เหตุผลที่เกี่ยวข้องกับข้อมูลทั้งข้อความและภาพ
MTVQA	MTVQA เป็นมาตรฐานความเข้าใจข้อความภาพหลายภาษาเพื่อประเมิน MLLMS
ลีดเดอร์บอร์ดภาพหลอนหลายรูป	ลีดเดอร์ลีดเดอร์บอร์ด Multimodal เปรียบเทียบ MLLMS ตามระดับภาพหลอนในงานต่าง ๆ
หลายมาตรฐาน	Multi-benchmark เป็นเกณฑ์มาตรฐานในการประเมิน MLLMs เกี่ยวกับการทำความเข้าใจตารางและรูปภาพที่ซับซ้อนและการให้เหตุผลด้วยบริบทที่ยาวนาน
การผูกขาด	MultitRust เป็นมาตรฐานในการประเมินความน่าเชื่อถือของ MLLMS ในห้าด้านหลัก: ความจริงความปลอดภัยความแข็งแกร่งความยุติธรรมและความเป็นส่วนตัว
nphardeval4v	NPHARDEVAL4V เป็นมาตรฐานในการประเมินความสามารถในการใช้เหตุผลของ MLLMS ผ่านเลนส์ของคลาสความซับซ้อนในการคำนวณ
กระดานผู้นำของผู้ให้บริการ	LLM API ผู้ให้บริการ Leadboard เป็นแพลตฟอร์มในการเปรียบเทียบประสิทธิภาพของผู้ให้บริการ API สำหรับจุดสิ้นสุด LLM ข้ามตัวชี้วัดคีย์ประสิทธิภาพ
Ocrbench	Ocrbench เป็นเกณฑ์มาตรฐานในการประเมินความสามารถของ OCR ของแบบจำลองหลายรูปแบบ
บัลลังก์ PCA	PCA-bench เป็นมาตรฐานในการประเมินความสามารถในการตัดสินใจที่เป็นตัวเป็นตนของแบบจำลองหลายรูปแบบ
คิว	Q-Bench เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการให้เหตุผลด้านภาพของ MLLMS
รางวัล Bench	REWARDBENCH เป็นมาตรฐานในการประเมินความสามารถและความปลอดภัยของแบบจำลองรางวัล
ScienceQa	ScienceQa เป็นมาตรฐานที่ใช้ในการประเมินความสามารถในการใช้เหตุผลหลายครั้งและความสามารถในการตีความของระบบ AI ในบริบทของการตอบคำถามวิทยาศาสตร์
Scigraphqa	Scigraphqa เป็นมาตรฐานในการประเมิน MLLMS ในการตอบคำถามกราฟทางวิทยาศาสตร์
บัลลังก์เมล็ด	Bench Seed เป็นมาตรฐานในการประเมินการสร้างข้อความและการสร้างภาพของแบบจำลองหลายรูปแบบ
urial	Urial เป็นมาตรฐานในการประเมินความสามารถของแบบจำลองภาษาสำหรับการจัดตำแหน่งโดยไม่ต้องแนะนำปัจจัยของการปรับแต่ง (อัตราการเรียนรู้ข้อมูล ฯลฯ ) ซึ่งยากที่จะควบคุมการเปรียบเทียบที่เป็นธรรม
UPD LEADERBOARD	UPD LEADERBOARD เป็นแพลตฟอร์มในการประเมินความน่าเชื่อถือของ MLLMS ในการตรวจจับปัญหาที่ไม่สามารถแก้ไขได้
บรรยากาศ	Vibe-Eval เป็นมาตรฐานในการประเมิน MLLMs สำหรับกรณีที่ท้าทาย
Videohallucer	VideoHallucer เป็นมาตรฐานในการตรวจจับภาพหลอนใน MLLMS
ผู้เยี่ยมชม	Visit-Bench เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการติดตามคำสั่งของ MLLMS สำหรับการใช้งานจริง
Waymo Open DataSet Challenges	Waymo Open DataSet Challenges มีชุดข้อมูลการขับขี่ด้วยตนเองที่หลากหลายเพื่อประเมินโมเดล ML
อ๊ะ!	อ๊ะ! เป็นมาตรฐานในการประเมินความสามารถในการใช้เหตุผลเชิงภาพของ MLLMS
บัลลังก์ Wildvision	WildVision-Bench เป็นเกณฑ์มาตรฐานในการประเมิน VLMs ในป่าด้วยความชอบของมนุษย์
เวที Wildvision	WildVision Arena เป็นเจ้าภาพจัดงาน Chatbot Arena ที่ MLLMs ต่าง ๆ แข่งขันกันตามประสิทธิภาพของพวกเขาในการทำความเข้าใจภาพ

รหัส

ชื่อ	คำอธิบาย
Aider LLM LEADERBOARDS	AIDER LLM LEADERBOARDS ประเมินความสามารถของ LLM ในการติดตามระบบแจ้งให้แก้ไขรหัส
appworld	AppWorld เป็นสภาพแวดล้อมการดำเนินการที่มีความเที่ยงตรงสูงของแอพ 9 วันต่อวันซึ่งสามารถดำเนินการผ่าน 457 APIs ซึ่งมีกิจกรรมดิจิทัลที่มีคน ~ 100 คนที่อาศัยอยู่ในโลกจำลอง
บอร์ดลีดเดอร์	Berkeley Function-calling Leadyboard ประเมินความสามารถของ LLM ในการเรียกฟังก์ชั่น (หรือที่เรียกว่าเครื่องมือ) อย่างถูกต้อง
BigCodeBench	BigCodeBench เป็นเกณฑ์มาตรฐานสำหรับการสร้างรหัสที่มีงานเขียนโปรแกรมเชิงปฏิบัติและท้าทาย
บิ๊กรหัสโมเดลลีดเดอร์บอร์ด	Big Code Models Leadyboard เป็นแพลตฟอร์มในการติดตามและประเมินประสิทธิภาพของ LLMS ในงานที่เกี่ยวข้องกับรหัส
นก	Bird เป็นมาตรฐานในการประเมินประสิทธิภาพของระบบการแยกวิเคราะห์แบบข้อความถึง SQL
booksql	BooksQL เป็นเกณฑ์มาตรฐานในการประเมินระบบข้อความถึง SQL ในโดเมนการเงินและการบัญชีในอุตสาหกรรมต่าง ๆ ด้วยชุดข้อมูล 1 ล้านธุรกรรมจาก 27 ธุรกิจ
กระดานผู้นำ Canaicode	CanaiCode Leadyboard เป็นแพลตฟอร์มในการประเมินความสามารถในการสร้างรหัสของ LLMS
คลาสสิก	ClassEval เป็นเกณฑ์มาตรฐานในการประเมิน LLMs ในการสร้างรหัสระดับชั้นเรียน
Codeapex	Codeapex เป็นมาตรฐานในการประเมินความเข้าใจการเขียนโปรแกรมของ LLMS ผ่านคำถามแบบปรนัยและการสร้างรหัสด้วยปัญหาอัลกอริทึม C ++
รหัส	CodeScope เป็นมาตรฐานในการประเมินความสามารถในการเข้ารหัส LLM ใน 43 ภาษาและ 8 งานโดยพิจารณาถึงความยากลำบากประสิทธิภาพและความยาว
codetransocean	Codetransocean เป็นมาตรฐานในการประเมินการแปลรหัสในภาษาการเขียนโปรแกรมที่หลากหลายรวมถึงรหัสยอดนิยมช่องและรหัสการแปล LLM
รหัสภาษา	Code Lingua เป็นมาตรฐานในการเปรียบเทียบความสามารถของโมเดลรหัสเพื่อทำความเข้าใจว่ารหัสใช้อะไรในภาษาต้นฉบับและแปลความหมายเดียวกันในภาษาเป้าหมาย
เข้ารหัสลีดเดอร์บอร์ด LLMS	การเข้ารหัส LLMS LEADERBOARD เป็นแพลตฟอร์มในการประเมินและจัดอันดับ LLMS ในงานการเขียนโปรแกรมต่างๆ
กระทำ -0	commit-0 เป็นความท้าทายการเข้ารหัส AI จากการสร้างใหม่เพื่อสร้างไลบรารี Python 54 Core เพื่อให้แน่ใจว่าพวกเขาผ่านการทดสอบหน่วยด้วยการทดสอบที่สำคัญการตรวจสอบผ้าสำลี/ประเภทและการพัฒนาแบบกระจายบนคลาวด์
cruxeval	Cruxeval เป็นมาตรฐานในการประเมินการใช้เหตุผลการใช้รหัสความเข้าใจและความสามารถในการดำเนินการของ LLMS
Cspider	Cspider เป็นมาตรฐานในการประเมินความสามารถของระบบในการสร้างแบบสอบถาม SQL จากภาษาธรรมชาติของจีนในฐานข้อมูลที่หลากหลายซับซ้อนและข้ามโดเมน
ไซเบอร์เซเวล	Cyberseceval เป็นมาตรฐานในการประเมินความปลอดภัยทางไซเบอร์ของ LLMS ในฐานะผู้ช่วยการเข้ารหัส
Devops AI ผู้ช่วยเปิดลีดเดอร์บอร์ด	DevOps AI ผู้ช่วยเปิดลีดเดอร์บอร์ดเปิดจัดอันดับและประเมินผู้ช่วย DevOps AI ในโดเมนความรู้
Devops-eval	DevOps-Eval เป็นมาตรฐานในการประเมินโมเดลรหัสในฟิลด์ DevOps/AIOPS
โด่งดัง	DomaineVal เป็นเกณฑ์มาตรฐานที่สร้างขึ้นอัตโนมัติสำหรับการสร้างรหัสหลายโดเมน
ดร. สปอร์	Dr.Spider เป็นมาตรฐานในการประเมินความทนทานของโมเดลข้อความถึง SQL โดยใช้ชุดทดสอบการก่อกวนที่แตกต่างกัน
การมีกลิ่นอาย	Effibench เป็นมาตรฐานในการประเมินประสิทธิภาพของ LLM ในการสร้างรหัส
การประเมิน	EvalPlus เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพการสร้างรหัสของ LLMS
evocodebench	EvocodeBench เป็นมาตรฐานการสร้างรหัสวิวัฒนาการที่สอดคล้องกับที่เก็บรหัสในโลกแห่งความจริง
evoeval	Evoeval เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการเข้ารหัสของ LLM ซึ่งสร้างขึ้นโดยการพัฒนามาตรฐานที่มีอยู่เป็นโดเมนเป้าหมายที่แตกต่างกัน
การติดเชื้อ	Infibench เป็นเกณฑ์มาตรฐานในการประเมินโมเดลรหัสในการตอบคำถามที่เกี่ยวข้องกับรหัสจริงของ Freeform
รหัสระหว่างกัน	Intercode เป็นมาตรฐานในการสร้างมาตรฐานและประเมินการเข้ารหัสแบบโต้ตอบด้วยข้อเสนอแนะการดำเนินการ
Julia LLM LEADERBOARD	Julia LLM Leadboard เป็นแพลตฟอร์มในการเปรียบเทียบความสามารถของโมเดลโค้ดในการสร้างรหัส Julia ที่ถูกต้องทางไวยากรณ์ซึ่งมีการทดสอบที่มีโครงสร้างและการประเมินอัตโนมัติเพื่อการเปรียบเทียบที่ง่ายและทำงานร่วมกัน
LiveCodeBench	LiveCodeBench เป็นเกณฑ์มาตรฐานในการประเมินโมเดลรหัสในสถานการณ์ที่เกี่ยวข้องกับรหัสเมื่อเวลาผ่านไป
เวทีรหัสยาว	Long Code Arena เป็นชุดมาตรฐานสำหรับงานที่เกี่ยวข้องกับรหัสที่มีบริบทขนาดใหญ่จนถึงที่เก็บรหัสทั้งหมด
McEval	McEval เป็นเกณฑ์มาตรฐานการประเมินรหัสหลายภาษาที่ครอบคลุมซึ่งครอบคลุม 40 ภาษา (ตัวอย่าง 16k ใน 44 ทั้งหมด) ครอบคลุมการสร้างรหัสหลายภาษาคำอธิบายรหัสหลายภาษาและงานที่สมบูรณ์หลายภาษา
การท่องจำหรือการสร้างแบบจำลองรหัสใหญ่บอร์ดลีดเดอร์บอร์ด	การท่องจำหรือการสร้างโมเดลบิ๊กรหัสลีดเดอร์บอร์ดและเปรียบเทียบประสิทธิภาพของโมเดลการสร้างรหัส
ม้านั่ง	Multi-Swe-Bench เป็นปัญหา GitHub แบบหลายภาษาสำหรับการแก้ไขมาตรฐานสำหรับตัวแทนรหัส
NaturalCodeBench	NaturalCodeBench เป็นมาตรฐานในการสะท้อนความซับซ้อนและความหลากหลายของสถานการณ์ในงานการเข้ารหัสจริง
บอร์ดลีดเดอร์	Nexus Function Calling Loadboard เป็นแพลตฟอร์มในการประเมินโมเดลรหัสในการดำเนินการเรียกใช้ฟังก์ชันและการใช้ API
NL2SQL360	NL2SQL360 เป็นกรอบการประเมินที่ครอบคลุมสำหรับการเปรียบเทียบและเพิ่มประสิทธิภาพวิธี NL2SQL ในสถานการณ์แอปพลิเคชันต่างๆ
Pecc	PECC เป็นเกณฑ์มาตรฐานที่ประเมินการสร้างรหัสโดยกำหนดให้แบบจำลองต้องเข้าใจและแยกข้อกำหนดของปัญหาจากคำอธิบายตามการบรรยายเพื่อสร้างโซลูชันที่แม่นยำทางไวยากรณ์
เกณฑ์มาตรฐาน prollm	Prollm Benchmarks เป็นเกณฑ์มาตรฐาน LLM ที่ใช้งานได้จริงและเชื่อถือได้ซึ่งออกแบบมาสำหรับกรณีการใช้ธุรกิจในโลกแห่งความเป็นจริงในหลายอุตสาหกรรมและภาษาการเขียนโปรแกรม
Pybench	Pybench เป็นเกณฑ์มาตรฐานที่ประเมิน LLM ในงานการเข้ารหัสในโลกแห่งความเป็นจริงรวมถึงการวิเคราะห์แผนภูมิการวิเคราะห์ข้อความการแก้ไขรูปภาพ/ เสียงคณิตศาสตร์ที่ซับซ้อนและซอฟต์แวร์/ การพัฒนาเว็บไซต์
แข่ง	การแข่งขันเป็นมาตรฐานในการประเมินความสามารถของ LLM ในการสร้างรหัสที่ถูกต้องและตรงตามข้อกำหนดของสถานการณ์การพัฒนาในโลกแห่งความเป็นจริง
repoqa	RepoQa เป็นมาตรฐานในการประเมินความสามารถในการทำความเข้าใจรหัสบริบทยาวของ LLMS
Scicode	Scicode เป็นเกณฑ์มาตรฐานที่ออกแบบมาเพื่อประเมินแบบจำลองภาษาในการสร้างรหัสเพื่อแก้ปัญหาการวิจัยทางวิทยาศาสตร์ที่สมจริง
Soliditybench	SolidityBench เป็นมาตรฐานในการประเมินและจัดอันดับความสามารถของ LLM ในการสร้างและตรวจสอบสัญญาอัจฉริยะ
แมงมุม	แมงมุมเป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพของอินเทอร์เฟซภาษาธรรมชาติสำหรับฐานข้อมูลข้ามโดเมน
Stabletoolbench	Stabletoolbench เป็นมาตรฐานในการประเมินการเรียนรู้เครื่องมือที่มีจุดมุ่งหมายเพื่อให้การผสมผสานที่สมดุลของความมั่นคงและความเป็นจริง
ม้านั่ง	SWE-BENCH เป็นเกณฑ์มาตรฐานสำหรับการประเมิน LLMS ในปัญหาซอฟต์แวร์ในโลกแห่งความเป็นจริงที่รวบรวมจาก GitHub
webapp1k	WebApp1K เป็นมาตรฐานในการประเมิน LLMs เกี่ยวกับความสามารถในการพัฒนาเว็บแอปพลิเคชันในโลกแห่งความเป็นจริง
WebDev Arena	WebDev Arena เป็นเจ้าภาพจัดงาน Chatbot Arena ที่ LLM ต่างๆแข่งขันตามการพัฒนาเว็บไซต์
ป่า	Wilds เป็นเกณฑ์มาตรฐานของการกระจายการกระจายในป่าซึ่งประกอบไปด้วยรังสีและการใช้งานที่หลากหลายตั้งแต่การระบุเนื้องอกไปจนถึงการตรวจสอบสัตว์ป่าไปจนถึงการทำแผนที่ความยากจน

วีดีโอ

ชื่อ	คำอธิบาย
บัลลังก์โครโนมิก	Chronomagic-Bench เป็นเกณฑ์มาตรฐานในการประเมินความสามารถของโมเดลวิดีโอในการสร้างวิดีโอไทม์แลปส์ที่มีแอมพลิจูดการเปลี่ยนแปลงสูงและการเชื่อมโยงกันทางโลกในฟิสิกส์ชีววิทยาและโดเมนเคมีโดยใช้การควบคุมข้อความแบบฟรี
Dream-1k	Dream-1K เป็นมาตรฐานในการประเมินประสิทธิภาพการทำงานของวิดีโอบนคลิปวิดีโอที่หลากหลาย 1,000 รายการที่มีกิจกรรมมากมายการกระทำและการเคลื่อนไหวจากภาพยนตร์แอนิเมชั่นวิดีโอสต็อกวิดีโอ YouTube และวิดีโอสั้นสไตล์ Tiktok
Longvideobench	LongvideObench เป็นมาตรฐานในการประเมินความสามารถของโมเดลวิดีโอในการตอบคำถามการให้เหตุผลที่อ้างถึงซึ่งขึ้นอยู่กับอินพุตเฟรมยาวและไม่สามารถอยู่ได้อย่างดีโดยเฟรมเดียวหรือเฟรมกระจัดกระจาย
lvbench	LVBENCH เป็นเกณฑ์มาตรฐานในการประเมินโมเดลหลายรูปแบบในงานทำความเข้าใจวิดีโอที่ยาวนานซึ่งต้องใช้หน่วยความจำเพิ่มเติมและความสามารถด้านความเข้าใจ
MLVU	MLVU เป็นเกณฑ์มาตรฐานในการประเมินโมเดลวิดีโอในการทำความเข้าใจวิดีโอนานหลายงาน
MMTOM-QA	MMTOM-QA เป็นเกณฑ์มาตรฐานหลายรูปแบบในการประเมินทฤษฎีเครื่องจักร (TOM) ความสามารถในการเข้าใจจิตใจของผู้คน
MVBench	MVBench เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการทำความเข้าใจทางโลกของโมเดลวิดีโอในงานวิดีโอแบบไดนามิก
บอร์ดวิดีโอ OpenVLM	OpenVLM Video Leadyboard เป็นแพลตฟอร์มที่แสดงผลการประเมินผลของ VLMs 30 รายการในการวัดความเข้าใจวิดีโอโดยใช้เฟรมเวิร์ก VLMevalkit
อุณหภูมิ	TempCompass เป็นเกณฑ์มาตรฐานในการประเมินการรับรู้ทางโลกของวิดีโอ LLMS โดยใช้วิดีโอ 410 รายการและคำแนะนำงาน 7,540 รายการใน 11 ด้านชั่วคราวและ 4 ประเภทงาน
Vbench	VBench เป็นมาตรฐานในการประเมินความสามารถในการสร้างวิดีโอของโมเดลวิดีโอ
Videoniah	Videoniah เป็นมาตรฐานในการประเมินความเข้าใจที่ละเอียดและความสามารถในการสร้างแบบจำลองเชิงพื้นที่ของโมเดลวิดีโอ
วิดีโอ	Videophy เป็นมาตรฐานในการประเมินวิดีโอที่สร้างขึ้นสำหรับการยึดมั่นในการรวมตัวกันทางกายภาพในการโต้ตอบของวัสดุในโลกแห่งความเป็นจริง
Videoscore	VideoScore เป็นเกณฑ์มาตรฐานในการประเมินโมเดลการกำเนิดแบบ text-to-video ในห้ามิติที่สำคัญ
Videovista	Videovista เป็นเกณฑ์มาตรฐานที่มีคำถาม 25,000 คำถามจากวิดีโอ 3,400 รายการใน 14 หมวดหมู่ครอบคลุม 19 ความเข้าใจและ 8 งานที่ให้เหตุผล
บัลลังก์วิดีโอ	Video-Bench เป็นเกณฑ์มาตรฐานในการประเมินความเข้าใจวิดีโอแบบพิเศษการรวมตัวกันก่อนและความสามารถในการตัดสินใจด้วยวิดีโอของโมเดลวิดีโอ
วิดีโอ MME	Video-MME เป็นมาตรฐานในการประเมินความสามารถในการวิเคราะห์วิดีโอของโมเดลวิดีโอ

คณิตศาสตร์

ชื่อ	คำอธิบาย
อาเบล	Abel เป็นแพลตฟอร์มในการประเมินความสามารถทางคณิตศาสตร์ของ LLM
Mathbench	MathBench เป็นมาตรฐานการประเมินคณิตศาสตร์หลายระดับสำหรับ LLMS
เกี่ยวกับคาทอลิก	Matheval เป็นมาตรฐานในการประเมินความสามารถทางคณิตศาสตร์ของ LLMS
เกี่ยวกับคณิตศาสตร์	Mathusereval เป็นเกณฑ์มาตรฐานที่มีคำถามการสอบของมหาวิทยาลัยและการสืบค้นที่เกี่ยวข้องกับคณิตศาสตร์ที่ได้มาจากการสนทนาจำลองด้วยคำอธิบายประกอบที่มีประสบการณ์
คณิตศาสตร์	Mathverse เป็นมาตรฐานในการประเมินแบบจำลองภาษาวิสัยทัศน์ในการตีความและให้เหตุผลด้วยข้อมูลภาพในปัญหาทางคณิตศาสตร์
Mathvista	Mathvista เป็นมาตรฐานในการประเมินการใช้เหตุผลทางคณิตศาสตร์ในบริบทของภาพ
คณิตศาสตร์	Math-Vision (MATH-V) เป็นมาตรฐานของปัญหาทางคณิตศาสตร์บริบท 3,040 ครั้งจากการแข่งขันครอบคลุม 16 สาขาและ 5 ระดับความยากลำบากในการประเมินการใช้เหตุผลทางคณิตศาสตร์ของ LMMS
เปิดลีดเดอร์บอร์ดการใช้เหตุผลหลายภาษา	เปิดลีดเดอร์บอร์ดที่ให้เหตุผลหลายภาษาและจัดอันดับประสิทธิภาพการใช้เหตุผลของ LLMS ในการวัดค่าการใช้เหตุผลเชิงคณิตศาสตร์หลายภาษา
Putnambench	Putnambench เป็นมาตรฐานในการประเมินความสามารถในการใช้เหตุผลเชิงคณิตศาสตร์อย่างเป็นทางการของ LLMs ในการแข่งขันพัท
Scibench	Scibench เป็นมาตรฐานในการประเมินความสามารถในการใช้เหตุผลของ LLMs สำหรับการแก้ปัญหาทางวิทยาศาสตร์ที่ซับซ้อน
tabmwp	TabMWP เป็นมาตรฐานในการประเมิน LLM ในงานการใช้เหตุผลทางคณิตศาสตร์ที่เกี่ยวข้องกับข้อมูลทั้งสองและตาราง
เรามา ธ	We-Math เป็นมาตรฐานในการประเมินความสามารถในการใช้เหตุผลเชิงคณิตศาสตร์ของมนุษย์ที่มีลักษณะคล้ายกับ LLMs ด้วยหลักการแก้ปัญหาที่เกินกว่าประสิทธิภาพการทำงานแบบ end-to-end

ตัวแทน

ชื่อ	คำอธิบาย
ตัวแทน	Agentbench เป็นเกณฑ์มาตรฐานในการประเมินแบบจำลองภาษาตามเอเจนต์ในสเปกตรัมที่หลากหลายของสภาพแวดล้อมที่แตกต่างกัน
ตัวแทน	AgentStudio เป็นโซลูชันแบบบูรณาการที่มีห้องสวีทมาตรฐานเชิงลึกสภาพแวดล้อมที่สมจริงและชุดเครื่องมือที่ครอบคลุม
มีลักษณะเฉพาะ	PartyEval เป็นเกณฑ์มาตรฐานในการประเมินตัวแทนการสนทนา (RPCAs) โดยใช้บทสนทนาหลายเทิร์นและโปรไฟล์อักขระโดยมีตัวชี้วัดที่ครอบคลุมสี่มิติ
GTA	GTA เป็นมาตรฐานในการประเมินความสามารถในการใช้เครื่องมือของตัวแทนที่ใช้ LLM ในสถานการณ์จริง
LEETCODE-HARD GYM	LeetCode-Hard Gym เป็นอินเทอร์เฟซสภาพแวดล้อม RL ไปยังเซิร์ฟเวอร์การส่งของ LeetCode สำหรับการประเมินตัวแทน codegen
LLM COLOSSEUM LEDIONBOARD	LLM Colosseum Leadyboard เป็นแพลตฟอร์มสำหรับประเมิน LLM โดยการต่อสู้ใน Street Fighter 3
เวทมนตร์	Magic เป็นมาตรฐานในการวัดความสามารถของการรับรู้การปรับตัวความมีเหตุผลและการทำงานร่วมกันของ LLMs ภายใน sytems หลายตัวแทน
Olas ทำนายเกณฑ์มาตรฐาน	Olas Predict Benchmark เป็นเกณฑ์มาตรฐานในการประเมินตัวแทนในการพยากรณ์เหตุการณ์ในอดีตและอนาคต
ผู้ท่องเที่ยว	TravelPlanner เป็นมาตรฐานในการประเมินตัวแทน LLM ในการใช้เครื่องมือและการวางแผนที่ซับซ้อนภายในข้อ จำกัด หลายประการ
ความว่างเปล่า	VisualAgentBench (VAB) เป็นเกณฑ์มาตรฐานในการประเมินและพัฒนา LMMs เป็นตัวแทนมูลนิธิ Visual ซึ่งประกอบด้วย 5 สภาพแวดล้อมที่แตกต่างกันใน 3 ประเภทของงานตัวแทนภาพตัวแทน
ภาพ	Visualwebarena เป็นมาตรฐานในการประเมินประสิทธิภาพของตัวแทนเว็บหลายรูปแบบในงานที่มีพื้นฐานทางสายตา
กระดานผู้นำทางเว็บ	WebAgent Leadyboard ติดตามและประเมิน LLMS, VLMS และตัวแทนในงานนำทางเว็บ
Webarena	WebArena เป็นสภาพแวดล้อมเว็บแบบสแตนด์อโลนที่เป็นที่ยอมรับตนเองเพื่อประเมินตัวแทนอิสระ
γ-bench	γ-BENCH เป็นกรอบสำหรับการประเมินความสามารถในการเล่นเกมของ LLMS ในสภาพแวดล้อมที่หลากหลายโดยใช้สถานการณ์ทฤษฎีเกมคลาสสิกแปดแบบและรูปแบบการให้คะแนนแบบไดนามิก
bench	τ-bench เป็นเกณฑ์มาตรฐานที่เลียนแบบการสนทนาแบบไดนามิกระหว่างผู้ใช้ที่จำลองด้วยโมเดลภาษาและตัวแทนภาษาที่ติดตั้งเครื่องมือ API เฉพาะโดเมนและแนวทางนโยบาย

เสียง

ชื่อ	คำอธิบาย
ม้านั่ง	Air-Bench เป็นมาตรฐานในการประเมินความสามารถของโมเดลเสียงในการทำความเข้าใจสัญญาณเสียงประเภทต่าง ๆ (รวมถึงคำพูดของมนุษย์เสียงธรรมชาติและดนตรี) และยิ่งไปกว่านั้นเพื่อโต้ตอบกับมนุษย์ในรูปแบบข้อความ
หนังสือเสียง	AudioBench เป็นเกณฑ์มาตรฐานสำหรับแบบจำลองเสียงตามคำสั่งทั่วไป
เปิดกระดานผู้นำ ASR	Open ASR Leadboard เป็นแพลตฟอร์มสำหรับการติดตามการจัดอันดับและการประเมินโมเดลการรู้จำเสียงพูดอัตโนมัติ (ASR)
กระดานผู้นำ ASR โปแลนด์	Polish ASR Leadyboard มีวัตถุประสงค์เพื่อให้ภาพรวมที่ครอบคลุมของประสิทธิภาพของระบบ ASR/STT สำหรับโปแลนด์
ปลาแซลมอน	ปลาแซลมอนเป็นชุดการประเมินผลที่เปรียบเทียบแบบจำลองภาษาการพูดเกี่ยวกับความสอดคล้องเสียงพื้นหลังอารมณ์ความรู้สึกตัวตนของผู้พูดและการตอบสนองต่อแรงกระตุ้นของห้อง
TTS Arena	TTS-ARENA เป็นเจ้าภาพจัดงาน TEXT TO SPIEND (TTS) Arena ซึ่งรุ่น TTS ต่าง ๆ แข่งขันกันตามประสิทธิภาพของพวกเขาในการสร้างคำพูด
บอร์ดลีดเดอร์	Whisper Leadyboard เป็นการติดตามแพลตฟอร์มและเปรียบเทียบประสิทธิภาพการรู้จำเสียงพูดของโมเดลเสียงบนชุดข้อมูลต่างๆ

3 มิติ

ชื่อ	คำอธิบาย
สนามกีฬา 3 มิติ	3D Arena เป็นเจ้าภาพจัดงาน 3D Generation Arena ซึ่งรุ่น 3D Generative ต่าง ๆ แข่งขันกันตามประสิทธิภาพของพวกเขาในการสร้างโมเดล 3 มิติ
3D-POPE	3D-POPE เป็นเกณฑ์มาตรฐานในการประเมินภาพหลอนของวัตถุในแบบจำลองการกำเนิดแบบ 3 มิติ
สนามกีฬา 3DGen	3DGen Arena เป็นเจ้าภาพจัดงาน 3D Generation Arena ซึ่งรุ่น Generative 3 มิติต่าง ๆ แข่งขันกันตามประสิทธิภาพของพวกเขาในการสร้างโมเดล 3 มิติ
ตะบัน	BOP เป็นเกณฑ์มาตรฐานสำหรับการประมาณ 6D ท่าของวัตถุที่แข็งจากภาพอินพุต RGB-D เดี่ยว
gpteval3d	GPTEVAL3D เป็นเกณฑ์มาตรฐานในการประเมินความสามารถของ MLLMS ของการทำความเข้าใจเนื้อหา 3D ผ่านภาพหลายมุมมองเป็นอินพุต

หลายรูปแบบ

ชื่อ	คำอธิบาย
Genai Arena	Genai Arena เป็นเจ้าภาพจัดงาน Visual Generation Arena ซึ่งรูปแบบการมองเห็นต่าง ๆ แข่งขันกันตามประสิทธิภาพของพวกเขาในการสร้างภาพรุ่นรูปภาพและการสร้างวิดีโอ
บอร์ด Labelbox	LABELBOX LEADERBOARDS ประเมินประสิทธิภาพของแบบจำลอง AI กำเนิดโดยใช้ข้อมูลโรงงาน: แพลตฟอร์มกระบวนการทางวิทยาศาสตร์และมนุษย์ผู้เชี่ยวชาญ
ม้านั่งขนาดใหญ่	Mega-Bench เป็นเกณฑ์มาตรฐานสำหรับการประเมินแบบหลายรูปแบบพร้อมงานที่หลากหลายใน 8 ประเภทแอปพลิเคชัน, 7 รูปแบบอินพุต, 6 รูปแบบเอาต์พุตและ 10 ทักษะหลายรูปแบบซึ่งประกอบไปด้วยภาพเดียวภาพหลายภาพและวิดีโอ

การจัดอันดับฐานข้อมูล

ชื่อ	คำอธิบาย
Vectordbbench	Vectordbbench เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพความคุ้มค่าและความสามารถในการปรับขนาดของฐานข้อมูลเวกเตอร์ต่างๆและบริการฐานข้อมูลเวกเตอร์บนคลาวด์

ชื่อ

คำอธิบาย

Vectordbbench

Vectordbbench เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพความคุ้มค่าและความสามารถในการปรับขนาดของฐานข้อมูลเวกเตอร์ต่างๆและบริการฐานข้อมูลเวกเตอร์บนคลาวด์

การจัดอันดับชุดข้อมูล

ชื่อ	คำอธิบาย
Datacomp	DataComp เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพของชุดข้อมูลต่าง ๆ ด้วยสถาปัตยกรรมแบบจำลองคงที่

การจัดอันดับตัวชี้วัด

ชื่อ	คำอธิบาย
Alignscore	AlignScore ประเมินประสิทธิภาพของตัวชี้วัดที่แตกต่างกันในการประเมินความสอดคล้องที่เป็นจริง

การจัดอันดับกระดาษ

ชื่อ	คำอธิบาย
เอกสารลีดเดอร์	Papers Leadyboard เป็นแพลตฟอร์มในการประเมินความนิยมของเอกสารการเรียนรู้ของเครื่อง

การจัดอันดับกระดานผู้นำ

ชื่อ	คำอธิบาย
บอร์ดลีดเดอร์บอร์ดเปิด	Open Leaderboards Leadboard เป็นกระดานเมตาดาต้าที่ใช้ประโยชน์จากการตั้งค่าของมนุษย์เพื่อเปรียบเทียบกระดานผู้นำการเรียนรู้ของเครื่อง

ขยาย