แอคลู | ACLUE เป็นเกณฑ์มาตรฐานการประเมินความเข้าใจภาษาจีนโบราณ |
ลีดเดอร์บอร์ดประเมิน LLM ภาษาแอฟริกัน | กระดานผู้นำการประเมินผล LLM ภาษาแอฟริกันติดตามความคืบหน้าและจัดอันดับประสิทธิภาพของ LLM ในภาษาแอฟริกัน |
บอร์ดตัวแทน | AgentBoard เป็นเกณฑ์มาตรฐานสำหรับตัวแทน LLM แบบหลายรอบ เสริมด้วยคณะกรรมการประเมินผลเชิงวิเคราะห์สำหรับการประเมินแบบจำลองโดยละเอียด นอกเหนือจากอัตราความสำเร็จขั้นสุดท้าย |
เอจีวัล | AGIEval เป็นเกณฑ์มาตรฐานที่เน้นมนุษย์เป็นศูนย์กลางในการประเมินความสามารถทั่วไปของแบบจำลองพื้นฐานในงานที่เกี่ยวข้องกับการรับรู้และการแก้ปัญหาของมนุษย์ |
ลีดเดอร์บอร์ดของ Aiera | บอร์ดผู้นำ Aiera ประเมินประสิทธิภาพของ LLM ในงานข่าวกรองทางการเงิน รวมถึงการมอบหมายวิทยากร การระบุการเปลี่ยนวิทยากร การสรุปเชิงนามธรรม การถามตอบตามการคำนวณ และการแท็กความคิดเห็นทางการเงิน |
AIR-ม้านั่ง | AIR-Bench เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการดึงข้อมูลที่แตกต่างกันของโมเดลภาษา |
ลีดเดอร์บอร์ดคะแนนพลังงาน AI | กระดานผู้นำคะแนนพลังงาน AI ติดตามและเปรียบเทียบรุ่นต่างๆ ในด้านประสิทธิภาพการใช้พลังงาน |
ai-benchmarks | ai-benchmarks มีผลการประเมินจำนวนหนึ่งสำหรับเวลาแฝงในการตอบสนองของบริการ AI ยอดนิยม |
จัดตำแหน่งBench | AlignBench เป็นเกณฑ์มาตรฐานหลายมิติสำหรับประเมินการจัดตำแหน่ง LLM ในภาษาจีน |
อัลปาก้าEval | AlpacaEval เป็นตัวประเมินอัตโนมัติที่ออกแบบมาสำหรับ LLM ที่ปฏิบัติตามคำแนะนำ |
อังโก | ANGO เป็นเกณฑ์มาตรฐานการประเมินแบบจำลองภาษาจีนที่มุ่งเน้นรุ่น |
กระดานผู้นำ Tokenizers ภาษาอาหรับ | กระดานผู้นำ Tokenizers ภาษาอาหรับเปรียบเทียบประสิทธิภาพของ LLM ในการแยกวิเคราะห์ภาษาอาหรับในภาษาถิ่นและรูปแบบต่างๆ |
อารีน่า-ฮาร์ด-ออโต้ | Arena-Hard-Auto เป็นเกณฑ์มาตรฐานสำหรับ LLM ที่ปรับแต่งตามคำสั่ง |
การแข่งขันอัตโนมัติ | AutoRace มุ่งเน้นไปที่การประเมินโดยตรงของห่วงโซ่การใช้เหตุผล LLM ด้วยเมตริก AutoRace (การประเมินห่วงโซ่การใช้เหตุผลอัตโนมัติ) |
ออโต้อารีน่า | สนามประลองอัตโนมัติเป็นเกณฑ์มาตรฐานที่ตัวแทนโมเดลภาษาต่างๆ เข้าร่วมการต่อสู้แบบเพียร์กันเพื่อประเมินประสิทธิภาพของพวกเขา |
ออโต้-เจ | Auto-J โฮสต์ผลการประเมินในการเปรียบเทียบการตอบสนองแบบคู่และงานสร้างคำวิจารณ์ |
บาบิลอง | BABILong เป็นเกณฑ์มาตรฐานสำหรับการประเมินประสิทธิภาพของแบบจำลองภาษาในการประมวลผลเอกสารที่มีความยาวตามอำเภอใจพร้อมข้อเท็จจริงที่กระจายอยู่ |
ธนาคารกรุงเทพ | BBL (BIG-bench Lite) เป็นชุดย่อยเล็กๆ ของงาน JSON ที่หลากหลาย 24 งานจาก BIG-bench ได้รับการออกแบบมาเพื่อให้การวัดประสิทธิภาพของโมเดลเป็นที่ยอมรับ ในขณะที่ราคาถูกกว่าการประเมินมากกว่าชุดงานเชิงโปรแกรมและ JSON มากกว่า 200 รายการใน BIG-bench |
จงซื่อสัตย์ | BeHonest เป็นเกณฑ์มาตรฐานในการประเมินความซื่อสัตย์ - การตระหนักถึงขอบเขตความรู้ (ความรู้ในตนเอง) การหลีกเลี่ยงการหลอกลวง (การไม่หลอกลวง) และความสม่ำเสมอในการตอบสนอง (ความสม่ำเสมอ) - ใน LLM |
เบนเบนช์ | BenBench เป็นเกณฑ์มาตรฐานในการประเมินขอบเขตที่ LLM ดำเนินการฝึกอบรมแบบคำต่อคำในชุดการฝึกอบรมของเกณฑ์มาตรฐานมากกว่าชุดทดสอบเพื่อเพิ่มขีดความสามารถ |
เบ็น เช็กมาร์ค | BenCzechMark (BCM) เป็นเกณฑ์มาตรฐานภาษาเช็กแบบมัลติทาสก์และหลายเมตริกสำหรับ LLM พร้อมระบบการให้คะแนนที่เป็นเอกลักษณ์ซึ่งใช้ทฤษฎีนัยสำคัญทางสถิติ |
BiGGen-ม้านั่ง | BiGGen-Bench เป็นเกณฑ์มาตรฐานที่ครอบคลุมในการประเมิน LLM ในงานที่หลากหลาย |
บอทแชท | BotChat เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการสนทนาแบบหลายรอบของ LLM ผ่านงานพร็อกซี |
CaselawQA | CaselawQA เป็นเกณฑ์มาตรฐานที่ประกอบด้วยงานการจำแนกประเภททางกฎหมายที่ได้มาจากฐานข้อมูลทางกฎหมายของศาลฎีกาและศาลอุทธรณ์ซองเกอร์ |
ซีเอฟแอล | CFLUE เป็นเกณฑ์มาตรฐานในการประเมินความเข้าใจและความสามารถในการประมวลผลของ LLM ในโดเมนทางการเงินของจีน |
Ch3Ef | Ch3Ef เป็นเกณฑ์มาตรฐานในการประเมินความสอดคล้องกับความคาดหวังของมนุษย์ โดยใช้ตัวอย่างที่มีคำอธิบายประกอบโดยมนุษย์ 1,002 ตัวอย่างใน 12 โดเมน และ 46 งานตามหลักการ hhh |
ศูนย์กลางห่วงโซ่แห่งความคิด | Chain-of-Thought Hub เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการให้เหตุผลของ LLM |
แชทบอทอารีน่า | Chatbot Arena เป็นเจ้าภาพจัดงานแชทบอทที่ LLM ต่างๆ แข่งขันกันตามความพึงพอใจของผู้ใช้ |
เคมเบนช์ | ChemBench เป็นเกณฑ์มาตรฐานในการประเมินความรู้ทางเคมีและความสามารถในการให้เหตุผลของ LLM |
ภาษาจีนอย่างง่ายQA | Chinese SimpleQA เป็นเกณฑ์มาตรฐานของจีนในการประเมินความสามารถด้านความเป็นจริงของแบบจำลองภาษาในการตอบคำถามสั้นๆ |
กระดานผู้นำ CLEM | CLEM เป็นเฟรมเวิร์กที่ออกแบบมาเพื่อการประเมินอย่างเป็นระบบของ LLM ที่เพิ่มประสิทธิภาพการแชทในฐานะตัวแทนการสนทนา |
คลีวา | CLEVA เป็นเกณฑ์มาตรฐานในการประเมิน LLM ในงาน 31 งานโดยใช้ข้อความค้นหาภาษาจีน 370,000 รายการจากชุดข้อมูลที่หลากหลาย 84 ชุดและตัววัด 9 ตัว |
ลีดเดอร์บอร์ดโมเดลจีนขนาดใหญ่ | บอร์ดผู้นำโมเดลขนาดใหญ่ของจีนเป็นแพลตฟอร์มสำหรับประเมินประสิทธิภาพของ LLM ของจีน |
ซีเอ็มบี | CMB เป็นเกณฑ์มาตรฐานทางการแพทย์หลายระดับในภาษาจีน |
ซีเอ็มเอ็มแอลยู | CMMLU เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพของ LLM ในวิชาต่างๆ ภายในบริบทวัฒนธรรมจีน |
CMMU | CMMMU เป็นเกณฑ์มาตรฐานในการประเมิน LMM ในงานที่ต้องการความรู้ในวิชาระดับวิทยาลัยและการให้เหตุผลโดยเจตนาในบริบทของจีน |
สามัญพล | CommonGen เป็นเกณฑ์มาตรฐานในการประเมินการให้เหตุผลทั่วไปเชิงกำเนิดโดยเครื่องทดสอบเกี่ยวกับความสามารถในการเขียนประโยคที่สอดคล้องกันโดยใช้ชุดแนวคิดทั่วไปที่กำหนด |
คอมมิกซ์ | CompMix เป็นเกณฑ์มาตรฐานสำหรับการตอบคำถามที่ต่างกัน |
ลีดเดอร์บอร์ดอัตราการบีบอัด | กระดานผู้นำอัตราการบีบอัดมีจุดมุ่งหมายเพื่อประเมินประสิทธิภาพของโทเค็นไนเซอร์ในภาษาต่างๆ |
ลีดเดอร์บอร์ดการบีบอัด | กระดานผู้นำการบีบอัดเป็นแพลตฟอร์มสำหรับประเมินประสิทธิภาพการบีบอัดของ LLM |
CopyBench | CopyBench เป็นเกณฑ์มาตรฐานในการประเมินพฤติกรรมการคัดลอกและประโยชน์ของโมเดลภาษา ตลอดจนประสิทธิผลของวิธีการในการลดความเสี่ยงด้านลิขสิทธิ์ |
โคตาอีวาล | CoTaEval เป็นเกณฑ์มาตรฐานในการประเมินความเป็นไปได้และผลข้างเคียงของวิธีการลบลิขสิทธิ์สำหรับ LLM |
ConvRe | ConvRe เป็นเกณฑ์มาตรฐานในการประเมินความสามารถของ LLM ในการทำความเข้าใจความสัมพันธ์แบบสนทนา |
นักวิจารณ์ประเมินผล | CriticEval เป็นเกณฑ์มาตรฐานในการประเมินความสามารถของ LLM ในการตอบสนองต่อคำวิจารณ์ |
CS-Bench | CS-Bench เป็นเกณฑ์มาตรฐานสองภาษาที่ออกแบบมาเพื่อประเมินประสิทธิภาพของ LLM ในสาขาย่อยด้านวิทยาการคอมพิวเตอร์ 26 สาขา โดยมุ่งเน้นที่ความรู้และการให้เหตุผล |
น่ารัก | CUTE เป็นเกณฑ์มาตรฐานในการทดสอบความรู้ orthographic ของ LLM |
ไซเบอร์เมตริก | CyberMetric เป็นเกณฑ์มาตรฐานในการประเมินความรู้ด้านความปลอดภัยทางไซเบอร์ของ LLM |
เช็กBench | CzechBench เป็นเกณฑ์มาตรฐานในการประเมินโมเดลภาษาเช็ก |
ซี-อีวาล | C-Eval เป็นชุดประเมินผลภาษาจีนสำหรับ LLM |
กระดานผู้นำอารีน่าแบบกระจายอำนาจ | Decentralized Arena เป็นเจ้าภาพแพลตฟอร์มที่มีการกระจายอำนาจและเป็นประชาธิปไตยสำหรับการประเมิน LLM ทำให้เป็นอัตโนมัติและปรับขนาดการประเมินในมิติที่หลากหลายและกำหนดโดยผู้ใช้ รวมถึงคณิตศาสตร์ ตรรกะ และวิทยาศาสตร์ |
การถอดรหัสความน่าเชื่อถือ | DecodingTrust เป็นแพลตฟอร์มในการประเมินความน่าเชื่อถือของ LLM |
กระดานผู้นำโดเมน LLM | Domain LLM Leaderboard เป็นแพลตฟอร์มสำหรับประเมินความนิยมของ LLM เฉพาะโดเมน |
ลีดเดอร์บอร์ดสถานการณ์องค์กร | Enterprise Scenarios Leaderboard ติดตามและประเมินประสิทธิภาพของ LLM ในกรณีการใช้งานระดับองค์กรในโลกแห่งความเป็นจริง |
EQ-ม้านั่ง | EQ-Bench เป็นเกณฑ์มาตรฐานในการประเมินแง่มุมของความฉลาดทางอารมณ์ใน LLM |
ลีดเดอร์บอร์ด LLM ของยุโรป | กระดานผู้นำ LLM ของยุโรปติดตามและเปรียบเทียบประสิทธิภาพของ LLM ในภาษายุโรป |
EvalGPT.ai | EvalGPT.ai เป็นเจ้าภาพเวทีแชทบอทเพื่อเปรียบเทียบและจัดอันดับประสิทธิภาพของ LLM |
อีวาล อารีน่า | Eval Arena วัดระดับเสียง คุณภาพของแบบจำลอง และคุณภาพเกณฑ์มาตรฐานโดยการเปรียบเทียบคู่ของแบบจำลองกับเกณฑ์มาตรฐานการประเมิน LLM ต่างๆ ด้วยการวิเคราะห์ระดับตัวอย่างและการเปรียบเทียบแบบคู่ |
กระดานผู้นำข้อเท็จจริง | Factuality Leaderboard เปรียบเทียบความสามารถด้านข้อเท็จจริงของ LLM |
FanOutQA | FanOutQA เป็นเกณฑ์มาตรฐานคุณภาพสูงแบบหลายฮอปและหลายเอกสารสำหรับ LLM โดยใช้วิกิพีเดียภาษาอังกฤษเป็นฐานความรู้ |
FastEval | FastEval เป็นชุดเครื่องมือสำหรับการประเมินโมเดลภาษาตามคำสั่งและภาษาแชทอย่างรวดเร็วบนเกณฑ์มาตรฐานต่างๆ พร้อมการอนุมานที่รวดเร็วและข้อมูลเชิงลึกด้านประสิทธิภาพโดยละเอียด |
เฟลม | FELM เป็นเกณฑ์มาตรฐานเมตาเพื่อประเมินเกณฑ์มาตรฐานการประเมินข้อเท็จจริงสำหรับ LLM |
ฟินอีวาล | FinEval เป็นเกณฑ์มาตรฐานในการประเมินความรู้ด้านการเงินใน LLM |
ลีดเดอร์บอร์ดที่ปรับแต่งอย่างละเอียด | ลีดเดอร์บอร์ดการปรับแต่งอย่างละเอียดเป็นแพลตฟอร์มสำหรับจัดอันดับและแสดงโมเดลที่ได้รับการปรับแต่งอย่างละเอียดโดยใช้ชุดข้อมูลหรือเฟรมเวิร์กโอเพ่นซอร์ส |
เปลวไฟ | Flames เป็นเกณฑ์มาตรฐานของจีนที่มีความขัดแย้งสูงในการประเมินการจัดวางคุณค่าของ LLM ในด้านความยุติธรรม ความปลอดภัย ศีลธรรม ความถูกต้องตามกฎหมาย และการปกป้องข้อมูล |
ติดตามBench | FollowBench เป็นข้อจำกัดแบบละเอียดหลายระดับที่เป็นไปตามเกณฑ์มาตรฐานเพื่อประเมินความสามารถในการปฏิบัติตามคำสั่งของ LLM |
ชุดข้อมูลคำถามต้องห้าม | ชุดข้อมูลคำถามต้องห้ามเป็นเกณฑ์มาตรฐานที่มีคำถาม 160 ข้อจาก 160 หมวดหมู่ที่ถูกละเมิด โดยมีเป้าหมายที่สอดคล้องกันสำหรับการประเมินวิธีการเจลเบรก |
รีวิวฟิวส์ | FuseReviews มุ่งหวังที่จะพัฒนางานการสร้างข้อความที่มีพื้นฐานมาจากพื้นฐาน รวมถึงการตอบคำถามและการสรุปในรูปแบบยาว |
ไกอา | GAIA มีเป้าหมายเพื่อทดสอบความสามารถพื้นฐานที่ผู้ช่วย AI ควรมี |
กาวี | GAVIE เป็นเกณฑ์มาตรฐานที่ได้รับความช่วยเหลือจาก GPT-4 สำหรับการประเมินอาการประสาทหลอนใน LMM โดยการให้คะแนนความแม่นยำและความเกี่ยวข้องโดยไม่ต้องอาศัยความจริงพื้นฐานที่มีคำอธิบายประกอบโดยมนุษย์ |
GPT-Fathom | GPT-Fathom เป็นชุดการประเมิน LLM ซึ่งเปรียบเทียบ LLM ชั้นนำกว่า 10 รายการ รวมถึงโมเดลดั้งเดิมของ OpenAI บนการวัดประสิทธิภาพที่รวบรวมไว้มากกว่า 20 รายการใน 7 หมวดหมู่ความสามารถ ทั้งหมดอยู่ภายใต้การตั้งค่าที่สอดคล้องกัน |
GrailQA | การตอบคำถามแบบทั่วไปอย่างยิ่ง (GrailQA) เป็นเกณฑ์มาตรฐานขนาดใหญ่และมีคุณภาพสูงสำหรับการตอบคำถามบนฐานความรู้ (KBQA) บน Freebase โดยมีคำถาม 64,331 ข้อที่มีทั้งคำตอบและรูปแบบตรรกะที่สอดคล้องกันในรูปแบบที่แตกต่างกัน (เช่น SPARQL, S-expression ฯลฯ) |
GTBench | GTBench เป็นเกณฑ์มาตรฐานในการประเมินและจัดอันดับความสามารถในการให้เหตุผลของ LLM ในสภาพแวดล้อมที่มีการแข่งขันผ่านงานทางทฤษฎีเกม เช่น เกมกระดานและเกมไพ่ |
ลีดเดอร์บอร์ด Guerra LLM AI | Guerra LLM AI Leaderboard เปรียบเทียบและจัดอันดับประสิทธิภาพของ LLM ในด้านคุณภาพ ราคา ประสิทธิภาพ หน้าต่างบริบท และอื่นๆ |
ลีดเดอร์บอร์ดภาพหลอน | กระดานผู้นำภาพหลอนมีจุดมุ่งหมายเพื่อติดตาม จัดอันดับ และประเมินภาพหลอนใน LLM |
ฮาลูคิวเอ | HalluQA เป็นเกณฑ์มาตรฐานในการประเมินปรากฏการณ์ภาพหลอนใน LLM ของจีน |
กระดานผู้นำภาษาฮิบรู LLM | บอร์ดผู้นำภาษาฮิบรู LLM ติดตามและจัดอันดับโมเดลภาษาตามความสำเร็จในงานต่างๆ ในภาษาฮิบรู |
HellaSwag | HellaSwag เป็นเกณฑ์มาตรฐานในการประเมินการใช้เหตุผลทั่วไปใน LLM |
ลีดเดอร์บอร์ดแบบจำลองการประเมินอาการประสาทหลอนของฮิวจ์ | ลีดเดอร์บอร์ดแบบจำลองการประเมินภาพประสาทหลอนของ Hughes เป็นแพลตฟอร์มสำหรับประเมินความถี่ที่แบบจำลองภาษาทำให้เกิดภาพหลอนเมื่อสรุปเอกสาร |
ลีดเดอร์บอร์ด LLM ไอซ์แลนด์ | กระดานผู้นำ LLM ของไอซ์แลนด์ติดตามและเปรียบเทียบแบบจำลองในงานภาษาไอซ์แลนด์ |
IFval | IFEval เป็นเกณฑ์มาตรฐานในการประเมินคำสั่งของ LLM ตามความสามารถพร้อมคำแนะนำที่ตรวจสอบได้ |
อิล-ทูร์ | IL-TUR เป็นเกณฑ์มาตรฐานสำหรับการประเมินโมเดลภาษาในงานที่ใช้ภาษาเดียวและหลายภาษาที่เน้นการทำความเข้าใจและการให้เหตุผลในเอกสารทางกฎหมายของอินเดีย |
ลีดเดอร์บอร์ด LLM ของอินเดีย | Indic LLM Leaderboard เป็นแพลตฟอร์มสำหรับติดตามและเปรียบเทียบประสิทธิภาพของ Indic LLM |
ลีดเดอร์บอร์ด Indico LLM | Indico LLM Leaderboard ประเมินและเปรียบเทียบความแม่นยำของโมเดลภาษาต่างๆ จากผู้ให้บริการ ชุดข้อมูล และความสามารถ เช่น การจัดประเภทข้อความ การดึงข้อมูลหลัก และการสรุปเชิงสร้างสรรค์ |
InstructEval | InstructEval เป็นชุดประเมินวิธีการเลือกคำสั่งในบริบทของ LLM |
ลีดเดอร์บอร์ด LLM ของอิตาลี | LLM-ลีดเดอร์บอร์ดภาษาอิตาลีติดตามและเปรียบเทียบ LLM ในงานภาษาอิตาลี |
JailbreakBench | JailbreakBench เป็นเกณฑ์มาตรฐานสำหรับการประเมินช่องโหว่ของ LLM ผ่านการแจ้งของฝ่ายตรงข้าม |
สนามกีฬา Chatbot ของญี่ปุ่น | Japanese Chatbot Arena เป็นเจ้าภาพจัดงาน Chatbot Arena ซึ่ง LLM ต่างๆ แข่งขันกันตามประสิทธิภาพในภาษาญี่ปุ่น |
แบบจำลองการประเมินทางการเงินแบบจำลองภาษาญี่ปุ่น | สายรัดการประเมินแบบจำลองทางการเงินภาษาญี่ปุ่นเป็นสายรัดสำหรับการประเมินแบบจำลองภาษาญี่ปุ่นในโดเมนทางการเงิน |
เกณฑ์มาตรฐานการสวมบทบาท LLM ของญี่ปุ่น | เกณฑ์มาตรฐานการสวมบทบาท LLM ของญี่ปุ่นเป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพของ LLM ของญี่ปุ่นในการสวมบทบาทตัวละคร |
JMED-LLM | JMED-LLM (ชุดข้อมูลการประเมินทางการแพทย์ของญี่ปุ่นสำหรับแบบจำลองภาษาขนาดใหญ่) เป็นเกณฑ์มาตรฐานสำหรับการประเมิน LLM ในสาขาการแพทย์ของภาษาญี่ปุ่น |
เจมมู | JMMMU (MMMU ภาษาญี่ปุ่น) เป็นเกณฑ์มาตรฐานหลายรูปแบบเพื่อประเมินประสิทธิภาพของ LMM ในภาษาญี่ปุ่น |
จัสท์อีวาล | JustEval เป็นเครื่องมืออันทรงพลังที่ออกแบบมาเพื่อการประเมิน LLM แบบละเอียด |
โคล่า | KoLA เป็นเกณฑ์มาตรฐานในการประเมินความรู้ระดับโลกของ LLM |
โคมไฟ | LaMP (การปรับแต่งโมเดลภาษา) เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการปรับแต่งส่วนบุคคลของโมเดลภาษา |
สภาโมเดลภาษา | Language Model Council (LMC) เป็นเกณฑ์มาตรฐานในการประเมินงานที่มีความเป็นอัตวิสัยสูงและมักจะขาดข้อตกลงของมนุษย์เป็นหลัก |
กฎหมายBench | LawBench เป็นเกณฑ์มาตรฐานในการประเมินความสามารถทางกฎหมายของ LLM |
ลาลีดเดอร์บอร์ด | La Leaderboard ประเมินและติดตามการท่องจำ LLM การใช้เหตุผล และความสามารถทางภาษาในสเปน LATAM และแคริบเบียน |
ลอจิกก | LogicKor เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการคิดแบบสหสาขาวิชาชีพของ LLM ของเกาหลี |
กระดานผู้นำ LongICL | LongICL Leaderboard เป็นแพลตฟอร์มสำหรับประเมินการประเมินการเรียนรู้ในบริบทแบบยาวสำหรับ LLM |
ลูเกิล | LooGLE เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการทำความเข้าใจบริบทที่ยาวนานของ LLM |
ลาอิว | LAiW เป็นเกณฑ์มาตรฐานในการประเมินความเข้าใจและการใช้เหตุผลด้านกฎหมายของจีน |
ชุดเปรียบเทียบ LLM | LLM Benchmarker Suite เป็นเกณฑ์มาตรฐานในการประเมินความสามารถที่ครอบคลุมของ LLM |
การประเมินแบบจำลองภาษาขนาดใหญ่ในบริบทภาษาอังกฤษ | การประเมินแบบจำลองภาษาขนาดใหญ่ในบริบทภาษาอังกฤษเป็นแพลตฟอร์มสำหรับประเมิน LLM ในบริบทภาษาอังกฤษ |
การประเมินแบบจำลองภาษาขนาดใหญ่ในบริบทภาษาจีน | การประเมินแบบจำลองภาษาขนาดใหญ่ในบริบทภาษาจีนเป็นแพลตฟอร์มสำหรับประเมิน LLM ในบริบทภาษาจีน |
ราศีตุลย์ | LIBRA เป็นเกณฑ์มาตรฐานสำหรับการประเมินความสามารถของ LLM ในการทำความเข้าใจและประมวลผลข้อความภาษารัสเซียขนาดยาว |
ลีดเดอร์บอร์ด LibrAI-Eval GenAI | กระดานผู้นำ LibrAI-Eval GenAI มุ่งเน้นไปที่ความสมดุลระหว่างความสามารถของ LLM และความปลอดภัยของภาษาอังกฤษ |
ไลฟ์เบนช์ | LiveBench เป็นเกณฑ์มาตรฐานสำหรับ LLM ที่จะลดการปนเปื้อนของชุดทดสอบ และเปิดใช้งานการประเมินอัตโนมัติตามวัตถุประสงค์ในงานที่หลากหลายและอัปเดตเป็นประจำ |
แอลเอ็มอีวาล | LLMEval เป็นเกณฑ์มาตรฐานในการประเมินคุณภาพของการสนทนาแบบโอเพ่นโดเมนกับ LLM |
เลมวัล-เกาเกา2024-คณิต | Llmeval-Gaokao2024-Math เป็นเกณฑ์มาตรฐานสำหรับการประเมิน LLM เกี่ยวกับปัญหาคณิตศาสตร์ระดับ Gaokao ปี 2024 ในภาษาจีน |
ลีดเดอร์บอร์ด LLMHallucination | ลีดเดอร์บอร์ดภาพหลอนประเมิน LLM ตามเกณฑ์มาตรฐานที่เกี่ยวข้องกับภาพหลอน |
LLMPerf | LLMPerf เป็นเครื่องมือในการประเมินประสิทธิภาพของ LLM โดยใช้ทั้งการทดสอบโหลดและความถูกต้อง |
ลีดเดอร์บอร์ดทำนายความเสี่ยงโรค LLM | ลีดเดอร์บอร์ดทำนายความเสี่ยงโรค LLM เป็นแพลตฟอร์มสำหรับประเมิน LLM เกี่ยวกับการทำนายความเสี่ยงโรค |
ลีดเดอร์บอร์ด LLM | LLM Leaderboard ติดตามและประเมินผู้ให้บริการ LLM ทำให้สามารถเลือก API และโมเดลที่เหมาะสมที่สุดสำหรับความต้องการของผู้ใช้ |
ลีดเดอร์บอร์ด LLM สำหรับ CRM | CRM LLM Leaderboard เป็นแพลตฟอร์มสำหรับประเมินประสิทธิภาพของ LLM สำหรับการใช้งานทางธุรกิจ |
หอดูดาว LLM | LLM Observatory เป็นเกณฑ์มาตรฐานที่ประเมินและจัดอันดับ LLM ตามประสิทธิภาพในการหลีกเลี่ยงอคติทางสังคมในหมวดหมู่ต่างๆ เช่น รสนิยมของ LGBTIQ+ อายุ เพศ การเมือง เชื้อชาติ ศาสนา และความกลัวชาวต่างชาติ |
กระดานผู้นำราคา LLM | กระดานผู้นำราคา LLM ติดตามและเปรียบเทียบต้นทุน LLM ตามหนึ่งล้านโทเค็น |
การจัดอันดับ LLM | LLM Rankings นำเสนอการเปรียบเทียบโมเดลภาษาแบบเรียลไทม์โดยอิงตามการใช้โทเค็นมาตรฐานสำหรับการแจ้งเตือนและการเสร็จสิ้น ซึ่งอัปเดตบ่อยครั้ง |
ลีดเดอร์บอร์ดสวมบทบาท LLM | LLM Roleplay Leaderboard ประเมินประสิทธิภาพของมนุษย์และ AI ในเกมมนุษย์หมาป่าทางสังคมเพื่อการพัฒนา NPC |
กระดานผู้นำด้านความปลอดภัย LLM | LLM Safety Leaderboard มุ่งหวังที่จะจัดให้มีการประเมินแบบรวมสำหรับความปลอดภัยของโมเดลภาษา |
LLM ใช้ลีดเดอร์บอร์ดกรณี | LLM Use Case Leaderboard ติดตามและประเมิน LLM ในกรณีการใช้งานทางธุรกิจ |
LLM-AggreFact | LLM-AggreFact เป็นเกณฑ์มาตรฐานการตรวจสอบข้อเท็จจริงที่รวบรวมชุดข้อมูลที่เปิดเผยต่อสาธารณะล่าสุดส่วนใหญ่เกี่ยวกับการประเมินข้อเท็จจริงที่มีเหตุผล |
LLM-ลีดเดอร์บอร์ด | LLM-Leaderboard เป็นความพยายามร่วมกันของชุมชนในการสร้างกระดานผู้นำกลางสำหรับ LLM |
ลีดเดอร์บอร์ด LLM-Perf | LLM-Perf Leaderboard มุ่งหวังที่จะเปรียบเทียบประสิทธิภาพของ LLM ด้วยฮาร์ดแวร์ แบ็กเอนด์ และการเพิ่มประสิทธิภาพที่แตกต่างกัน |
LMExamQA | LMExamQA เป็นเฟรมเวิร์กการเปรียบเทียบโดยที่โมเดลภาษาทำหน้าที่เป็นผู้ตรวจสอบเพื่อสร้างคำถามและประเมินคำตอบในลักษณะอัตโนมัติที่ไม่ต้องอ้างอิงเพื่อการประเมินที่ครอบคลุมและเท่าเทียมกัน |
ลองเบนช์ | LongBench เป็นเกณฑ์มาตรฐานสำหรับการประเมินความสามารถในการทำความเข้าใจบริบทระยะยาวของ LLM |
หลง | Loong เป็นเกณฑ์มาตรฐานที่มีบริบทยาวสำหรับการประเมินความสามารถ QA หลายเอกสารของ LLM ในสถานการณ์ทางการเงิน กฎหมาย และทางวิชาการ |
ลีดเดอร์บอร์ด LLM แบบเปิดเชิงปริมาณบิตต่ำ | ลีดเดอร์บอร์ด Open LLM แบบเชิงปริมาณบิตต่ำติดตามและเปรียบเทียบ LLM เชิงปริมาณกับอัลกอริธึมเชิงปริมาณที่แตกต่างกัน |
LV-ประเมิน | LV-Eval เป็นเกณฑ์มาตรฐานบริบทแบบยาวที่มีระดับความยาวห้าระดับและเทคนิคขั้นสูงสำหรับการประเมิน LLM ที่แม่นยำในงาน QA แบบฮอปเดี่ยวและมัลติฮอปในชุดข้อมูลสองภาษา |
ลูซี่เอวาล | LucyEval นำเสนอการประเมินประสิทธิภาพของ LLM อย่างละเอียดในบริบทภาษาจีนต่างๆ |
แอล-อีวาล | L-Eval เป็นเกณฑ์มาตรฐานการประเมิน Long Context Language Model (LCLM) เพื่อประเมินประสิทธิภาพการจัดการบริบทที่ครอบคลุม |
M3KE | M3KE เป็นเกณฑ์มาตรฐานการประเมินความรู้หลายวิชาหลายระดับขนาดใหญ่เพื่อวัดความรู้ที่ได้รับจาก LLM ของจีน |
MetaCritique | MetaCritique เป็นผู้ตัดสินที่สามารถประเมินคำวิจารณ์ที่เขียนโดยมนุษย์หรือ LLM ที่สร้างโดยการสร้างคำวิจารณ์ |
มิ้นท์ | MINT เป็นเกณฑ์มาตรฐานในการประเมินความสามารถของ LLM ในการแก้ปัญหางานที่มีการโต้ตอบหลายรอบโดยใช้เครื่องมือและใช้ประโยชน์จากความคิดเห็นที่เป็นภาษาธรรมชาติ |
มิราจ | Mirage เป็นเกณฑ์มาตรฐานสำหรับการสร้างเสริมการเรียกค้นข้อมูลทางการแพทย์ โดยมีคำถาม 7,663 ข้อจากชุดข้อมูล QA ทางการแพทย์ 5 ชุด และทดสอบด้วยการกำหนดค่า 41 รายการโดยใช้ชุดเครื่องมือ MedRag |
เมดเบนช์ | MedBench เป็นเกณฑ์มาตรฐานในการประเมินความเชี่ยวชาญด้านความรู้และความสามารถในการใช้เหตุผลใน LLM ทางการแพทย์ |
MedS-ม้านั่ง | MedS-Bench เป็นเกณฑ์มาตรฐานทางการแพทย์ที่ประเมิน LLM ใน 11 หมวดหมู่งานโดยใช้ชุดข้อมูลที่หลากหลาย 39 ชุด |
กระดานผู้นำ Meta Open LLM | กระดานผู้นำ Meta Open LLM ทำหน้าที่เป็นศูนย์กลางในการรวบรวมข้อมูลจากกระดานผู้นำ LLM แบบเปิดต่างๆ ไว้ในหน้าการแสดงภาพเดียวที่ใช้งานง่าย |
MIMIC กระดานผู้นำการตัดสินใจทางคลินิก | MIMIC Clinical Decision Making Leaderboard ติดตามและประเมิน LLms ในการตัดสินใจทางคลินิกที่สมจริงสำหรับโรคในช่องท้อง |
MixEval | MixEval เป็นเกณฑ์มาตรฐานในการประเมิน LLM โดยการผสมผสานเกณฑ์มาตรฐานที่มีอยู่ทั่วไปอย่างมีกลยุทธ์ |
กระดานผู้นำ ML.ENERGY | ML.ENERGY Leaderboard ประเมินการใช้พลังงานของ LLM |
เอ็มเมดเบนช์ | MMedBench เป็นเกณฑ์มาตรฐานทางการแพทย์ในการประเมิน LLM ในความเข้าใจหลายภาษา |
มจล | MMLU เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพของ LLM ในงานทำความเข้าใจภาษาธรรมชาติที่หลากหลาย |
กระดานผู้นำ MMLU ตามงาน | กระดานผู้นำ MMLU ตามงานเป็นแพลตฟอร์มสำหรับการประเมินและเปรียบเทียบโมเดล ML ต่างๆ ในงานทำความเข้าใจภาษาต่างๆ |
MMLU-โปร | MMLU-Pro เป็น MMLU เวอร์ชันที่ท้าทายยิ่งกว่าในการประเมินความสามารถในการให้เหตุผลของ LLM |
ลีดเดอร์บอร์ด ModelScope LLM | ModelScope LLM Leaderboard เป็นแพลตฟอร์มสำหรับประเมิน LLM อย่างเป็นกลางและครอบคลุม |
ลีดเดอร์บอร์ดการประเมินโมเดล | กระดานผู้นำการประเมินโมเดลติดตามและประเมินโมเดลการสร้างข้อความตามประสิทธิภาพในการวัดประสิทธิภาพต่างๆ โดยใช้เฟรมเวิร์ก Mosaic Eval Gauntlet |
ลีดเดอร์บอร์ด MSNP | MSNP Leaderboard ติดตามและประเมินประสิทธิภาพของโมเดล GGUF เชิงปริมาณบนการรวม GPU และ CPU ต่างๆ โดยใช้การตั้งค่าโหนดเดียวผ่าน Ollama |
เอ็มสเทบ | MSTEB เป็นเกณฑ์มาตรฐานสำหรับการวัดประสิทธิภาพของโมเดลการฝังข้อความในภาษาสเปน |
เอ็มเทบี | MTEB เป็นเกณฑ์มาตรฐานขนาดใหญ่สำหรับการวัดประสิทธิภาพของโมเดลการฝังข้อความในงานการฝังที่หลากหลายใน 112 ภาษา |
เอ็มเทบี อารีน่า | MTEB Arena เป็นเจ้าภาพจัดการแสดงแบบจำลองสำหรับการประเมินแบบจำลองการฝังแบบไดนามิกในโลกแห่งความเป็นจริง ผ่านการสืบค้นตามผู้ใช้และการเปรียบเทียบการดึงข้อมูล |
MT-Bench-101 | MT-Bench-101 เป็นเกณฑ์มาตรฐานที่ละเอียดสำหรับการประเมิน LLM ในการสนทนาแบบหลายรอบ |
ลีดเดอร์บอร์ด LLM มาเลย์ของฉัน | กระดานผู้นำ LLM ภาษามาเลย์ของฉันมีจุดมุ่งหมายเพื่อติดตาม จัดอันดับ และประเมิน LLM ที่เปิดกว้างเกี่ยวกับงานภาษามาเลย์ |
โนชา | NoCha เป็นเกณฑ์มาตรฐานในการประเมินว่าโมเดลภาษาที่มีบริบทยาวสามารถตรวจสอบคำกล่าวอ้างที่เขียนเกี่ยวกับหนังสือสมมติได้ดีเพียงใด |
NPHardEval | NPHardEval เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการให้เหตุผลของ LLM ผ่านเลนส์ของคลาสความซับซ้อนในการคำนวณ |
กระดานผู้นำ Occiglot Euro LLM | กระดานผู้นำ Occiglot Euro LLM เปรียบเทียบ LLM ในสี่ภาษาหลักจากเกณฑ์มาตรฐาน Okapi และ Belebele (ฝรั่งเศส อิตาลี เยอรมัน สเปน และดัตช์) |
ม้านั่งโอลิมปิก | OlympiadBench เป็นเกณฑ์มาตรฐานทางวิทยาศาสตร์แบบสองภาษาที่รวบรวมโจทย์คณิตศาสตร์และฟิสิกส์ระดับโอลิมปิกจำนวน 8,476 รายการพร้อมคำอธิบายประกอบการให้เหตุผลระดับผู้เชี่ยวชาญทีละขั้นตอน |
โอลิมปิกอารีน่า | OlympicArena เป็นเกณฑ์มาตรฐานในการประเมินความสามารถขั้นสูงของ LLM ในการแข่งขันระดับโอลิมปิกในวงกว้าง |
โอบาบูก้า | Oobabooga เป็นเกณฑ์มาตรฐานในการดำเนินการทดสอบประสิทธิภาพแบบทำซ้ำของ LLM ด้วย UI เว็บ oobabooga |
OpenEval | OpenEval เป็นแพลตฟอร์มประเมินเพื่อประเมิน LLM ของจีน |
กระดานผู้นำตุรกี OpenLLM | กระดานผู้นำ OpenLLM ภาษาตุรกีติดตามความคืบหน้าและจัดอันดับประสิทธิภาพของ LLM ในภาษาตุรกี |
ลีดเดอร์บอร์ดแบบเปิดกว้าง | ลีดเดอร์บอร์ดความเปิดกว้างติดตามและประเมินความโปร่งใสของโมเดลในแง่ของการเข้าถึงน้ำหนัก ข้อมูล และใบอนุญาตแบบเปิด เผยให้เห็นโมเดลที่ขาดมาตรฐานของความเปิดกว้าง |
ลีดเดอร์บอร์ดแบบเปิดกว้าง | Openness Leaderboard เป็นเครื่องมือที่ติดตามความเปิดกว้างของ LLM ที่ปรับแต่งตามคำสั่ง โดยประเมินความโปร่งใส ข้อมูล และความพร้อมใช้งานของโมเดล |
OpenResearcher | OpenResearcher มีผลการเปรียบเทียบบนระบบที่เกี่ยวข้องกับ RAG ต่างๆ เป็นลีดเดอร์บอร์ด |
เปิดกระดานผู้นำ LLM ภาษาอาหรับ | กระดานผู้นำ LLM ภาษาอาหรับแบบเปิดติดตามความคืบหน้าและจัดอันดับประสิทธิภาพของ LLM ในภาษาอาหรับ |
เปิดกระดานผู้นำ LLM ภาษาจีน | กระดานผู้นำ LLM ภาษาจีนแบบเปิดมีจุดมุ่งหมายเพื่อติดตาม จัดอันดับ และประเมิน LLM ภาษาจีนแบบเปิด |
เปิดกระดานผู้นำ CoT | Open CoT Leaderboard ติดตามความสามารถของ LLM ในการสร้างร่องรอยการให้เหตุผลแบบห่วงโซ่ความคิดที่มีประสิทธิภาพ |
เปิดกระดานผู้นำการประเมินผล LLM ของดัตช์ | กระดานผู้นำการประเมินผล Open Dutch LLM ติดตามความคืบหน้าและจัดอันดับประสิทธิภาพของ LLM ในภาษาดัตช์ |
เปิดลีดเดอร์บอร์ด LLM ทางการเงิน | Open Financial LLM Leaderboard มีวัตถุประสงค์เพื่อประเมินและเปรียบเทียบประสิทธิภาพของ LLM ทางการเงิน |
เปิดลีดเดอร์บอร์ด ITA LLM | Open ITA LLM Leaderboard ติดตามความคืบหน้าและจัดอันดับประสิทธิภาพของ LLM ในภาษาอิตาลี |
เปิดกระดานผู้นำ Ko-LLM | Open Ko-LLM Leaderboard ติดตามความคืบหน้าและจัดอันดับประสิทธิภาพของ LLM ในภาษาเกาหลี |
เปิดลีดเดอร์บอร์ด LLM | Open LLM Leaderboard ติดตามความคืบหน้าและจัดอันดับประสิทธิภาพของ LLM เป็นภาษาอังกฤษ |
เปิดลีดเดอร์บอร์ด Medical-LLM | Open Medical-LLM Leaderboard มีจุดมุ่งหมายเพื่อติดตาม จัดอันดับ และประเมิน LLM แบบเปิดในโดเมนทางการแพทย์ |
เปิดกระดานผู้นำ MLLM | Open MLLM Leaderboard มีจุดมุ่งหมายเพื่อติดตาม จัดอันดับ และประเมิน LLM และแชทบอท |
เปิดกระดานผู้นำ MOE LLM | กระดานผู้นำ OPEN MOE LLM ประเมินประสิทธิภาพและประสิทธิภาพของ Mixture of Experts (MoE) LLM |
เปิดกระดานผู้นำการประเมิน LLM หลายภาษา | กระดานผู้นำการประเมิน LLM แบบเปิดหลายภาษาติดตามความคืบหน้าและจัดอันดับประสิทธิภาพของ LLM ในหลายภาษา |
เปิดลีดเดอร์บอร์ด PL LLM | กระดานผู้นำ Open PL LLM เป็นแพลตฟอร์มสำหรับประเมินประสิทธิภาพของ LLM ต่างๆ ในภาษาโปแลนด์ |
เปิดลีดเดอร์บอร์ด LLM ของโปรตุเกส | Open PT LLM Leaderboard มีวัตถุประสงค์เพื่อประเมินและเปรียบเทียบ LLM ในงานภาษาโปรตุเกส |
เปิดกระดานผู้นำ LLM ของไต้หวัน | กระดานผู้นำ Open Taiwan LLM จัดแสดงประสิทธิภาพของ LLM ในงานทำความเข้าใจภาษาจีนกลางของไต้หวันต่างๆ |
Open-LLM-ลีดเดอร์บอร์ด | Open-LLM-Leaderboard ประเมิน LLM ในการทำความเข้าใจภาษาและการใช้เหตุผลโดยการเปลี่ยนจากคำถามแบบปรนัย (MCQ) มาเป็นคำถามแบบเปิด |
แดชบอร์ด OPUS-MT | OPUS-MT Dashboard เป็นแพลตฟอร์มสำหรับติดตามและเปรียบเทียบโมเดลการแปลด้วยเครื่องในคู่ภาษาและตัวชี้วัดต่างๆ |
หรือ-ม้านั่ง | OR-Bench เป็นเกณฑ์มาตรฐานในการประเมินการปฏิเสธมากเกินไปของความปลอดภัยที่ได้รับการปรับปรุงใน LLM |
พาร์สเบนช์ | ParsBench มีชุดเครื่องมือสำหรับการเปรียบเทียบ LLM ตามภาษาเปอร์เซีย |
ลีดเดอร์บอร์ด LLM เปอร์เซีย | กระดานผู้นำ LLM เปอร์เซียให้การประเมิน LLM ในภาษาเปอร์เซียที่เชื่อถือได้ |
กระดานผู้นำพินอคคิโอ ITA | กระดานผู้นำ Pinocchio ITA ติดตามและประเมิน LLM ในภาษาอิตาลี |
PL-MTEB | PL-MTEB (Polish Massive Text Embedding Benchmark) เป็นเกณฑ์มาตรฐานสำหรับการประเมินการฝังข้อความในภาษาโปแลนด์ในงาน NLP 28 งาน |
ลีดเดอร์บอร์ดการแพทย์โปแลนด์ | กระดานผู้นำด้านการแพทย์ของโปแลนด์จะประเมินแบบจำลองภาษาในการสอบรับรองของคณะกรรมการโปแลนด์ |
ขับเคลื่อนโดย Intel LLM Leaderboard | บอร์ดผู้นำ LLM ที่ขับเคลื่อนโดย Intel จะประเมิน ให้คะแนน และจัดอันดับ LLM ที่ได้รับการฝึกอบรมล่วงหน้าหรือปรับแต่งฮาร์ดแวร์ของ Intel |
PubMedQA | PubMedQA เป็นเกณฑ์มาตรฐานในการประเมินการตอบคำถามการวิจัยชีวการแพทย์ |
พร้อมท์เบนช์ | PromptBench เป็นเกณฑ์มาตรฐานในการประเมินความแข็งแกร่งของ LLM บนการแจ้งเตือนของฝ่ายตรงข้าม |
QAConv | QAConv เป็นเกณฑ์มาตรฐานสำหรับการตอบคำถามโดยใช้การสนทนาที่ซับซ้อน เฉพาะโดเมน และแบบอะซิงโครนัสเป็นแหล่งความรู้ |
คุณภาพ | คุณภาพเป็นเกณฑ์มาตรฐานสำหรับการประเมินการตอบคำถามแบบปรนัยด้วยบริบทที่ยาว |
กระต่าย | RABBITS เป็นเกณฑ์มาตรฐานในการประเมินความแข็งแกร่งของ LLM โดยประเมินการจัดการคำพ้องความหมาย โดยเฉพาะชื่อแบรนด์และชื่อยาสามัญ |
ราคุดะ | Rakuda เป็นเกณฑ์มาตรฐานในการประเมิน LLM โดยพิจารณาจากวิธีการตอบคำถามปลายเปิดเกี่ยวกับหัวข้อญี่ปุ่น |
Redteam Arena | RedTeam Arena เป็นแพลตฟอร์มทีมสีแดงสำหรับ LLMS |
เกณฑ์มาตรฐานการต่อต้านการเป็นทีม | เกณฑ์มาตรฐานการต่อต้านการเป็นทีมสีแดงเป็นเกณฑ์มาตรฐานในการประเมินความแข็งแกร่งของ LLMs ต่อการแจ้งเตือนการเป็นทีมสีแดง |
Rest-MCTS* | REST-MCTS* เป็นวิธีการฝึกอบรมตนเองที่ได้รับการเสริมซึ่งใช้การค้นหาต้นไม้และการอนุมานการให้รางวัลเพื่อรวบรวมร่องรอยการใช้เหตุผลที่มีคุณภาพสูงสำหรับนโยบายการฝึกอบรมและแบบจำลองรางวัลโดยไม่มีคำอธิบายประกอบขั้นตอนด้วยตนเอง |
เวทีรีวิว | Reviewer Arena เป็นเจ้าภาพจัดงาน Reviewer Arena ซึ่ง LLMs ต่าง ๆ แข่งขันกันตามการแสดงของพวกเขาในการวิพากษ์วิจารณ์เอกสารวิชาการ |
ที่มีบทบาทสำคัญ | Roleval เป็นมาตรฐานสองภาษาเพื่อประเมินการท่องจำการใช้ประโยชน์และความสามารถในการใช้เหตุผลของความรู้บทบาทของ LLM |
กระดานผู้นำ RPBench | RPBENCH-AUTO เป็นไปป์ไลน์อัตโนมัติสำหรับการประเมิน LLMS โดยใช้ 80 personae สำหรับตัวละครและ 80 ฉากสำหรับการสวมบทบาทตามฉาก |
สนามกีฬา Chatbot Russian | Chatbot Arena เป็นเจ้าภาพจัดงาน Chatbot Arena ที่ LLM ต่างๆแข่งขันกันในรัสเซียตามความพึงพอใจของผู้ใช้ |
ซุปเปอร์เกลรัสเซีย | Russian Superglue เป็นเกณฑ์มาตรฐานสำหรับแบบจำลองภาษารัสเซียโดยมุ่งเน้นไปที่ตรรกะงานทั่วไปและงานให้เหตุผล |
ผู้ตัดสิน R | R-Judge เป็นเกณฑ์มาตรฐานในการประเมินความสามารถของ LLM ในการตัดสินและระบุความเสี่ยงด้านความปลอดภัยที่ได้รับบันทึกการโต้ตอบของตัวแทน |
พรอมต์ความปลอดภัย | พรอมต์ความปลอดภัยเป็นมาตรฐานในการประเมินความปลอดภัยของ LLMS ของจีน |
ความปลอดภัย | Safetybench เป็นมาตรฐานในการประเมินความปลอดภัยของ LLM |
บึงสลัด | Salad-Bench เป็นมาตรฐานสำหรับการประเมินความปลอดภัยและความปลอดภัยของ LLMS |
เรื่องอื้อฉาว | Scandeval เป็นมาตรฐานในการประเมิน LLMs เกี่ยวกับงานในภาษาสแกนดิเนเวียเช่นเดียวกับเยอรมันดัตช์และภาษาอังกฤษ |
ลีดเดอร์บอร์ดวิทยาศาสตร์ | Science Leadyboard เป็นแพลตฟอร์มในการประเมินความสามารถของ LLMS ในการแก้ปัญหาทางวิทยาศาสตร์ |
sciglm | Sciglm เป็นชุดของแบบจำลองภาษาทางวิทยาศาสตร์ที่ใช้กรอบคำอธิบายประกอบคำสั่งสะท้อนแสงเพื่อเพิ่มการให้เหตุผลทางวิทยาศาสตร์โดยการสร้างและแก้ไขโซลูชันทีละขั้นตอนสำหรับคำถามที่ไม่มีป้ายกำกับ |
Sciknoweval | Sciknoweval เป็นเกณฑ์มาตรฐานในการประเมิน LLMS ตามความสามารถของพวกเขาในการศึกษาอย่างกว้างขวางสอบถามอย่างจริงจังคิดอย่างลึกซึ้งฉลาดมองเห็นได้ชัดเจนและฝึกฝนอย่างขยันขันแข็ง |
ม้วน | Scrolls เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการใช้เหตุผลของ LLMS ในข้อความยาว |
Seaexam | Seaexam เป็นมาตรฐานในการประเมิน LLMs สำหรับภาษาเอเชียตะวันออกเฉียงใต้ (SEA) |
บอร์ด LLM SEAL LLM | Seal LLM Leadyboards เป็นแพลตฟอร์มการประเมินส่วนตัวที่ขับเคลื่อนด้วยผู้เชี่ยวชาญสำหรับ LLMS |
Seaeval | Seaeval เป็นมาตรฐานในการประเมินประสิทธิภาพของ LLM หลายภาษาในการทำความเข้าใจและให้เหตุผลด้วยภาษาธรรมชาติรวมถึงการปฏิบัติทางวัฒนธรรมความแตกต่างและค่านิยม |
หางเสือทะเล | Sea Helm เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพของ LLMS ในงานภาษาอังกฤษและเอเชียตะวันออกเฉียงใต้โดยมุ่งเน้นไปที่การแชทตามความสามารถในการติดตามและความสามารถทางภาษา |
seceval | Seceval เป็นมาตรฐานในการประเมินความรู้ด้านความปลอดภัยทางไซเบอร์ของแบบจำลองพื้นฐาน |
บอร์ดลีดเดอร์ | การปรับปรุงตัวเองลีดเดอร์บอร์ด (SIL) เป็นแพลตฟอร์มแบบไดนามิกที่อัปเดตชุดข้อมูลทดสอบและการจัดอันดับอย่างต่อเนื่องเพื่อให้ข้อมูลเชิงลึกด้านประสิทธิภาพแบบเรียลไทม์สำหรับ LLM และแชทบอทโอเพนซอร์ส |
บวชสเป็ค | Spec-Bench เป็นเกณฑ์มาตรฐานในการประเมินวิธีการถอดรหัสการเก็งกำไรในสถานการณ์ที่หลากหลาย |
มีโครงสร้าง | StructEval เป็นเกณฑ์มาตรฐานในการประเมิน LLM โดยดำเนินการประเมินที่มีโครงสร้างในหลายระดับความรู้ความเข้าใจและแนวคิดที่สำคัญ |
กระดานผู้นำ LLM Subquadratic | กระดานผู้นำ LLM Subquadratic ประเมิน LLM ด้วยสถาปัตยกรรม subquadratic/ปราศจากความสนใจ (เช่น RWKV & MAMBA) |
สุดยอด | Superbench เป็นระบบที่ครอบคลุมของงานและขนาดเพื่อประเมินความสามารถโดยรวมของ LLM |
ซุปเปอร์ | Superglue เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพของ LLMs ในชุดของงานการทำความเข้าใจภาษาที่ท้าทาย |
สุดยอด | Superlim เป็นเกณฑ์มาตรฐานในการประเมินความสามารถในการทำความเข้าใจภาษาของ LLMS ในสวีเดน |
Swahili LLM-Leadererboard | Swahili LLM-Leadererboard เป็นความพยายามของชุมชนร่วมในการสร้างลีดเดอร์บอร์ดกลางหนึ่งแห่งสำหรับ LLM |
s-eval | S-EVAL เป็นเกณฑ์มาตรฐานความปลอดภัยที่ครอบคลุมและหลากหลายด้วยการแจ้งเตือน 220,000 รายการที่ออกแบบมาเพื่อประเมินความปลอดภัย LLM ในมิติความเสี่ยงที่หลากหลาย |
tableqaeval | TableQaeval เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพ LLM ในการสร้างแบบจำลองตารางยาวและความสามารถด้านความเข้าใจเช่นการใช้เหตุผลเชิงตัวเลขและหลายครั้ง |
ททท. DQA | Tat-DQA เป็นมาตรฐานในการประเมิน LLMs ในการให้เหตุผลแบบไม่ต่อเนื่องมากกว่าเอกสารที่รวมข้อมูลทั้งที่มีโครงสร้างและไม่มีโครงสร้าง |
ททท. | TAT-QA เป็นมาตรฐานในการประเมิน LLMS ในการใช้เหตุผลแบบไม่ต่อเนื่องมากกว่าเอกสารที่รวมเนื้อหาทั้งแบบตารางและข้อความ |
กระดานผู้นำ LLM ไทย | LLM LEADERBOARD ไทยมีจุดมุ่งหมายเพื่อติดตามและประเมิน LLMS ในงานภาษาไทย |
กอง | กองเป็นมาตรฐานในการประเมินความรู้และความสามารถในการใช้เหตุผลของโลกของ LLM |
เต้าหู้ | เต้าหู้เป็นเกณฑ์มาตรฐานในการประเมินประสิทธิภาพการเรียนรู้ของ LLMS ในสถานการณ์จริง |
Toloka LLM LEDIONBOARD | Toloka LLM Leadboard เป็นมาตรฐานในการประเมิน LLMS ตามพรอมต์ของผู้ใช้ที่แท้จริงและการประเมินผลของมนุษย์ที่เชี่ยวชาญ |
โต๊ะเครื่องมือ | Toolbench เป็นแพลตฟอร์มสำหรับการฝึกอบรมการให้บริการและการประเมิน LLM โดยเฉพาะสำหรับการเรียนรู้เครื่องมือ |
กระดานผู้นำความเป็นพิษ | กระดานผู้นำความเป็นพิษประเมินความเป็นพิษของ LLMS |
บอร์ดลีดเดอร์ LLM Trustbit | Trustbit LLM Leadboards เป็นแพลตฟอร์มที่ให้มาตรฐานสำหรับการสร้างและการจัดส่งผลิตภัณฑ์ด้วย LLMS |
Trustllm | Trustllm เป็นมาตรฐานในการประเมินความน่าเชื่อถือของ LLM |
Turingadvice | TuringAdvice เป็นมาตรฐานสำหรับการประเมินความสามารถของแบบจำลองภาษาในการสร้างคำแนะนำที่เป็นประโยชน์สำหรับสถานการณ์จริงและเปิดกว้าง |
ครูสอนพิเศษ | Tutoreval เป็นมาตรฐานการตอบคำถามซึ่งประเมินว่า LLM Tutor สามารถช่วยให้ผู้ใช้เข้าใจบทจากตำราวิทยาศาสตร์ได้ดีเพียงใด |
t-eval | T-EVAL เป็นมาตรฐานสำหรับการประเมินความสามารถในการใช้เครื่องมือของ LLMS |
กระดานผู้นำ UGI | มาตรการกระดานผู้นำ UGI และเปรียบเทียบข้อมูลที่ไม่ถูกตรวจสอบและเป็นที่รู้จักของ LLMS |
เป็นพิเศษ | Ultraeval เป็นกรอบโอเพนซอร์ซสำหรับการเปรียบเทียบแบบโปร่งใสและทำซ้ำได้ของ LLMs ในมิติประสิทธิภาพที่หลากหลาย |
vals ai | Vals AI เป็นแพลตฟอร์มที่ประเมินความแม่นยำของ AI และประสิทธิภาพในการทำงานทางกฎหมายในโลกแห่งความเป็นจริง |
VCR | Visual Pommonsense Reasing (VCR) เป็นเกณฑ์มาตรฐานสำหรับการทำความเข้าใจระดับความรู้ความเข้าใจในระดับความรู้ความเข้าใจซึ่งต้องใช้แบบจำลองเพื่อตอบคำถามภาพและให้เหตุผลสำหรับคำตอบของพวกเขา |
Vidore | Vidore เป็นเกณฑ์มาตรฐานในการประเมินแบบจำลองการดึงข้อมูลเกี่ยวกับความสามารถในการจับคู่การสืบค้นกับเอกสารที่เกี่ยวข้องในระดับหน้า |
VLLMS LEADERBOARD | VLLMS LEADERBOARD มีจุดมุ่งหมายเพื่อติดตามจัดอันดับและประเมิน LLMS และ ChatBots แบบเปิด |
VMLU | VMLU เป็นเกณฑ์มาตรฐานในการประเมินความสามารถโดยรวมของแบบจำลองพื้นฐานในเวียดนาม |
Wildbench | Wildbench เป็นมาตรฐานสำหรับการประเมินแบบจำลองภาษาเกี่ยวกับงานที่ท้าทายซึ่งคล้ายกับแอพพลิเคชั่นในโลกแห่งความเป็นจริงอย่างใกล้ชิด |
Xiezhi | Xiezhi เป็นมาตรฐานสำหรับการประเมินความรู้โดเมนแบบองค์รวมของ LLMS |
Yanolja Arena | Yanolja Arena โฮสต์เวทีแบบจำลองเพื่อประเมินความสามารถของ LLM ในการสรุปและแปลข้อความ |
ยังเป็นกระดานผู้นำ LLM อื่น | LLM LEADERBOARD อื่นเป็นแพลตฟอร์มสำหรับการติดตามการจัดอันดับและการประเมิน LLMS และ ChatBots แบบเปิด |
zebralogic | Zebralogic เป็นมาตรฐานการประเมินเหตุผลเชิงตรรกะของ LLMS โดยใช้ปริศนากริดลอจิกซึ่งเป็นปัญหาความพึงพอใจของข้อ จำกัด (CSP) |
Zerosumeval | Zerosumeval เป็นกรอบการประเมินผลการแข่งขันสำหรับ LLM โดยใช้การจำลองผู้เล่นหลายคนที่มีเงื่อนไขการชนะที่ชัดเจน |