awesome foundation model leaderboards下載 - awesome foundation model leaderboards原始碼下載

很棒的基礎模型排行榜

Awesome Foundation Model Leaderboard是一個很棒的基礎模型排行榜的精選清單（有關排行榜的解釋，請參閱本教程），以及根據我們的調查得出的各種開發工具和評估組織：

關於排行榜操作 (LBOps) 的工作流程和味道：
基礎模型排行榜的探索性研究

趙志敏 (Jimmy)、Abdul Ali Bangash、Filipe Roseiro Côgo、Bram Adams、Ahmed E. Hassan

軟體分析與智慧實驗室（SAIL）

如果您發現此存儲庫有用，請考慮給我們一顆星並引用：

 @article{zhao2024workflows,
  title={On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards},
  author={Zhao, Zhimin and Bangash, Abdul Ali and C{^o}go, Filipe Roseiro and Adams, Bram and Hassan, Ahmed E},
  journal={arXiv preprint arXiv:2407.04065},
  year={2024}
}

此外，我們還提供了一個搜尋工具包，可幫助您快速瀏覽排行榜。

如果您想對此清單做出貢獻（請這樣做），歡迎提出拉取請求。

如果您對此清單有任何建議、批評或疑問，歡迎提出問題。

此外，如果滿足以下條件，則應包含排行榜：

它得到積極維護。
它與基礎模型有關。

工具

姓名	描述
示範排行榜	演示排行榜可協助使用者使用標準化範本輕鬆部署排行榜。
示範排行榜後端	示範排行榜後端可協助使用者管理排行榜並處理提交請求，查看此了解詳細資訊。
Kaggle 競賽創建	Kaggle 競賽創建使您能夠設計和啟動自訂競賽，利用您的資料集吸引資料科學社群。
排行榜瀏覽器	排行榜瀏覽器可協助使用者瀏覽 Hugging Face Spaces 上提供的各種排行榜。
開啟 LLM 排行榜重命名器	open-llm-leaderboard-renamer 可協助使用者輕鬆重命名 Open LLM Leaderboard 中的模型。
開啟 LLM 排行榜結果 PR 開場	Open LLM 排行榜結果 PR Opener 可協助使用者在其模型卡中展示 Open LLM 排行榜結果。
開啟 LLM 排行榜抓取器	Open LLM Leaderboard Scraper 可協助使用者從 Open LLM Leaderboard 中抓取和匯出資料。
進度追蹤器	該應用程式可視化專有和開源法學碩士隨著時間的推移的進展，由 LMSYS Chatbot Arena 評分。

挑戰

姓名	描述
大眾	AIcrowd 為研究人員和從業者舉辦跨電腦視覺、NLP 和強化學習等領域的機器學習挑戰和競賽。
人工智慧中心	AI Hub 舉辦各種競賽，鼓勵人工智慧解決現實問題，並專注於創新和協作。
人工智慧工作室	AI Studio主要針對電腦視覺、NLP和其他數據驅動任務提供人工智慧競賽，讓使用者能夠發展和展示他們的人工智慧技能。
艾倫人工智慧研究所	艾倫人工智慧研究所提供自然語言理解、常識推理和人工智慧研究其他領域任務的排行榜和基準。
庫達基準	Codabench 是一個用於對 AI 模型進行基準測試的開源平台，支援跨各個 AI 領域的可自訂、用戶驅動的挑戰。
資料來源	DataFountain是中國人工智慧競賽平台，以金融、醫療、智慧城市等挑戰為主題，鼓勵解決產業相關問題。
驅動數據	DrivenData 舉辦具有社會影響力的機器學習挑戰賽，旨在解決公共衛生、救災和永續發展等領域的問題。
動態基準	Dynabench 提供動態基準，對模型進行持續評估，通常涉及人類交互，以確保不斷發展的人工智慧任務的穩健性。
評估人工智慧	EvalAI 是一個用於託管和參與人工智慧挑戰的平台，被研究人員廣泛用於對影像分類、NLP 和強化學習等任務中的模型進行基準測試。
大挑戰	Grand Challenge 為醫學影像挑戰提供了一個平台，支援醫學人工智慧的進步，特別是在放射學和病理學等領域。
喜利得	喜利得舉辦了旨在推動建築業人工智慧和機器學習的挑戰，重點是與產業相關的實際應用。
洞察面	InsightFace 專注於與人臉辨識、驗證和分析相關的人工智慧挑戰，支援身分驗證和安全方面的進步。
卡格爾	Kaggle 是最大的資料科學和機器學習競賽平台之一，涵蓋從影像分類到 NLP 和預測建模等廣泛主題。
新場景	nuScenes 使研究人員能夠使用真正的自動駕駛汽車的完整感測器套件來研究具有挑戰性的城市駕駛情況，從而促進自動駕駛的研究。
強勁的閱讀比賽	魯棒閱讀是指在不受限制的環境中解釋書面交流的研究領域，其競賽重點是現實環境中的文本識別。
天池	天池由阿里巴巴主辦，提供一系列人工智慧競賽，在亞洲特別受歡迎，重點關注商業、醫療保健和物流。

排行榜

型號排行

綜合的

姓名	描述
人工分析	人工分析是一個幫助用戶在人工智慧模型選擇和託管提供者方面做出明智決策的平台。
指南針排名	CompassRank是一個為產業和研究提供全面、客觀、中立的基礎模型評估參考的平台。
標誌評估	FlagEval 是一個用於評估基礎模型的綜合平台。
生成式人工智慧排行榜	生成式人工智慧排行榜根據各種指標對表現最好的生成式人工智慧模型進行排名。
語言模型的整體評估	語言模型的整體評估 (HELM) 是一個可重複且透明的框架，用於評估基礎模型。
論文與程式碼	Papers With Code 提供開源排行榜和基準，將人工智慧研究論文與程式碼連結起來，以提高機器學習的透明度和可重複性。
超線索	SuperCLUE是評估中國基礎模型的一系列基準。
Vellum LLM 排行榜	Vellum LLM 排行榜顯示了領先的商業和開源 LLM 的能力、價格和背景窗口的比較。

文字

姓名	描述
ACLUE	ACLUE是古漢語理解能力的評估基準。
非洲語言法學碩士評估排行榜	非洲語言法學碩士評估排行榜追蹤非洲語言法學碩士的進展並對錶現進行排名。
代理板	AgentBoard 是多輪 LLM 代理的基準，並輔以分析評估板，用於超出最終成功率的詳細模型評估。
AGIE值	AGIEval 是一個以人為中心的基準，用於評估基礎模型在與人類認知和解決問題相關的任務中的一般能力。
艾拉排行榜	Aiera Leaderboard 評估法學碩士在金融情報任務上的表現，包括演講者分配、演講者變更識別、抽象摘要、基於計算的問答和金融情緒標記。
空氣凳	AIR-Bench是評估語言模型異質資訊檢索能力的基準。
AI能源分數排行榜	AI能源分數排行榜追蹤並比較不同模型的能源效率。
人工智慧基準	ai-benchmarks 包含一些流行人工智慧服務回應延遲的評估結果。
對齊工作台	AlignBench是一個評估法學碩士中文一致性的多維度基準。
羊駝毛評估	AlpacaEval 是一款專為遵循指示的 LLM 設計的自動評估器。
非政府組織	ANGO是一個面向代的中文語言模型評估基準。
阿拉伯語分詞器排行榜	阿拉伯語分詞器排行榜比較了法學碩士解析不同方言和形式的阿拉伯語的效率。
Arena-硬自動	Arena-Hard-Auto 是指令調整 LLM 的基準。
賽車	AutoRace專注於使用度量AutoRace（自動推理鏈評估）對LLM推理鏈進行直接評估。
汽車競技場	Auto Arena 是一個基準測試，各種語言模型代理人透過對戰來評估其表現。
自動J	Auto-J 託管成對回應比較和批評產生任務的評估結果。
巴比龍	BABILong 是評估語言模型在處理具有分散式事實的任意長文檔時的效能的基準。
B肝病毒	BBL (BIG-bench Lite) 是 BIG-bench 24 個不同 JSON 任務的一個小子集。它旨在提供模型性能的規範衡量標準，同時評估成本比 BIG-bench 中全套 200 多個編程和 JSON 任務便宜得多。
誠實	BeHonest 是法學碩士評估誠實的基準，即了解知識邊界（自我知識）、避免欺騙（非欺騙性）和答案的一致性（一致性）。
本凳	BenBench是一個基準，用於評估LLM在測試集的基準訓練集上進行逐字訓練的程度，以增強能力。
本捷克馬克	BenCzechMark (BCM) 是針對法學碩士的多任務和多度量捷克語基準，具有利用統計顯著性理論的獨特評分系統。
BiGGen 工作台	BiGGen-Bench 是一個綜合基準，用於評估法學碩士在各種任務中的表現。
聊天機器人	BotChat是透過代理任務評估LLM多輪聊天能力的基準。
判例法品質保證	CaselawQA 是一個基準，包含來自最高法院和松格上訴法院法律資料庫的法律分類任務。
氟利昂	CFLUE是評估LLM對中國金融領域理解與處理能力的基準。
Ch3Ef	Ch3Ef 是一個基準，基於 hhh 原則，使用 12 個領域和 46 個任務的 1002 個人工註釋樣本來評估與人類期望的一致性。
思想鏈中心	Chain-of-Thought Hub是評估LLM推理能力的基準。
聊天機器人競技場	聊天機器人競技場主辦了一個聊天機器人競技場，各種法學碩士根據使用者滿意度競爭。
化學台	ChemBench是評估法學碩士化學知識和推理能力的基準。
中文簡單QA	Chinese SimpleQA 是評估語言模型回答簡短問題的事實能力的中國基準。
CLEM 排行榜	CLEM 是一個框架，旨在對作為對話代理的聊天優化的法學碩士進行系統評估。
克萊瓦	CLEVA 是使用來自 84 個不同資料集和 9 個指標的 370K 中文查詢來評估 31 項任務的法學碩士的基準。
中國大模特兒排行榜	中國大模型排行榜是評價中國法學碩士成績的平台。
中巴	CMB是中國多層次醫療標竿。
CMLU	CMMLU是評估中國文化背景下法學碩士在各學科表現的基準。
座標測量機	CMMMU 是評估 LMM 在中國背景下需要大學程度學科知識和深思熟慮推理的任務的基準。
通用發電公司	CommonGen 是評估產生常識推理的基準，透過測試機器使用給定的一組常見概念組成連貫句子的能力。
混合料	CompMix 是異質問答的基準。
壓縮率排行榜	壓縮率排行榜旨在評估不同語言的分詞器效能。
壓縮排行榜	壓縮排行榜是評估法學碩士壓縮性能的平台。
複製台	CopyBench是評估語言模型的複製行為和效用以及降低版權風險方法有效性的基準。
鈷評估	CoTaEval 是評估法學碩士版權刪除方法的可行性和副作用的基準。
轉換率	ConvRe是評估法學碩士理解逆關係能力的基準。
批評者評估	CriticEval 是評估法學碩士做出批評回應能力的基準。
CS-工作台	CS-Bench 是一個雙語基準測試，旨在評估法學碩士在 26 個電腦科學子領域的表現，並專注於知識和推理。
可愛的	CUTE 是測試法學碩士拼字法知識的基準。
網路度量	CyberMetric是評估法學碩士網路安全知識的基準。
捷克長椅	CzechBench 是評估捷克語模型的基準。
C-評估	C-Eval是針對法學碩士的中國評估套件。
去中心化競技場排行榜	Decentralized Arena 擁有一個去中心化和民主的平台，用於 LLM 評估、跨不同的、使用者定義的維度（包括數學、邏輯和科學）的自動化和擴展評估。
解碼信任	DecodingTrust 是一個評估法學碩士可信度的平台。
領域LLM排行榜	領域LLM排行榜是一個評估特定領域LLM受歡迎程度的平台。
企業場景排行榜	企業場景排行榜追蹤和評估法學碩士在現實企業用例中的表現。
EQ 基準	EQ-Bench 是評估法學碩士情緒智商方面的基準。
歐洲法學碩士排行榜	歐洲法學碩士排行榜追蹤並比較歐洲語言法學碩士的表現。
評估GPT.ai	EvalGPT.ai 託管了一個聊天機器人競技場，用於對法學碩士的表現進行比較和排名。
評估競技場	Eval Arena 透過範例層級分析和成對比較來比較多個 LLM 評估基準的模型對，從而測量雜訊等級、模型品質和基準品質。
事實排行榜	事實排行榜比較了法學碩士的事實能力。
扇出QA	FanOutQA 是一個高品質、多跳、多文件的基準測試，適用於法學碩士，使用英語維基百科作為其知識庫。
快速評估	FastEval 是一個工具包，用於在各種基準上快速評估指令追蹤和聊天語言模型，並提供快速推理和詳細的效能見解。
有限元素法	FELM 是評估法學碩士事實性評估基準的元基準。
芬評估	FinEval 是評估法學碩士金融領域知識的基準。
微調排行榜	微調排行榜是一個對使用開源資料集或框架微調的模型進行排名和展示的平台。
火焰	Flames 是一個高度對抗性的中國基準，用於評估法學碩士在公平、安全、道德、合法性和資料保護方面的價值一致性。
跟隨基準	FollowBench是一個多層級細粒度約束的基準測試，用於評估LLM的指令追蹤能力。
禁止問題資料集	禁止問題資料集是一個基準，包含 160 個違規類別的 160 個問題，以及相應的評估越獄方法的目標。
保險絲評論	FuseReviews 旨在推進基礎文字產生任務，包括長格式問答和摘要。
蓋亞	GAIA旨在測試AI助理應具備的基本能力。
嘉維	GAVIE 是一個 GPT-4 輔助基準，用於透過對準確性和相關性進行評分來評估 LMM 中的幻覺，而不依賴人類註釋的基本事實。
GPT-深尋	GPT-Fathom 是一個法學碩士評估套件，對 10 多個領先的法學碩士以及 OpenAI 的遺留模型進行了基準測試，涵蓋 7 個能力類別的 20 多個策劃基準，所有這些都在一致的設置下。
聖杯品質保證	強泛化問答 (GrailQA) 是 Freebase 上知識庫 (KBQA) 問答的大規模、高品質基準，包含 64,331 個問題，並以不同語法（即 SPARQL、S 表達式）標註答案和相應的邏輯形式， ETC 。
GT基準測試	GTBench 是一個基準，用於透過棋盤遊戲和紙牌遊戲等博弈論任務來評估和排名法學碩士在競爭環境中的推理能力。
Guerra LLM 人工智慧排行榜	Guerra LLM AI 排行榜對 LLM 在品質、價格、性能、上下文視窗等方面的表現進行比較和排名。
幻覺排行榜	幻覺排行榜旨在追蹤、排名和評估法學碩士的幻覺。
HalluQA	HalluQA是評估中國法學碩士幻覺現象的基準。
希伯來文法學碩士排行榜	希伯來文法學碩士排行榜根據語言模型在希伯來語各種任務上的成功情況對語言模型進行追蹤和排名。
海拉斯瓦格	HellaSwag 是評估法學碩士常識推理的基準。
休斯幻覺評估模型排行榜	休斯幻覺評估模型排行榜是一個評估語言模型在總結文件時引入幻覺的頻率的平台。
冰島LLM排行榜	冰島法學碩士排行榜追蹤並比較冰島語任務的模型。
IFE值	IFEval 是評估法學碩士的指示跟隨能力和可驗證指示的基準。
伊爾-圖爾	IL-TUR 是評估單語言和多語言任務的語言模型的基準，重點是對印度法律文件的理解和推理。
印度法學碩士排行榜	印度法學碩士排行榜是追蹤和比較印度法學碩士表現的平台。
Indico 法學碩士排行榜	Indico LLM Leaderboard 評估並比較不同提供者、資料集以及文字分類、關鍵資訊擷取和產生摘要等功能的各種語言模型的準確性。
指導評估	InstructEval 是一個在法學碩士背景下評估指令選擇方法的套件。
義大利法學碩士排行榜	義大利法學碩士排行榜追蹤並比較義大利語任務中的法學碩士。
越獄長凳	JailbreakBench 是透過對抗性提示評估 LLM 漏洞的基準。
日本聊天機器人競技場	Japanese Chatbot Arena 舉辦聊天機器人競技場，各種法學碩士根據日語表現進行競爭。
日文模型財務評估工具	日文模型財務評估工具是用於金融領域日文模型評估的工具。
日本法學碩士角色扮演基準	日本法學碩士角色扮演基準是評估日本法學碩士在角色扮演方面表現的基準。
法學碩士	JMED-LLM（大型語言模式的日本醫學評估資料集）是評估日語醫學領域法學碩士的基準。
聯合MMMU	JMMMU（日文 MMMU）是評估日文 LMM 表現的多模態基準。
正義評估	JustEval 是一款功能強大的工具，專為法學碩士的細粒度評估而設計。
科拉	KoLA是評估LLM世界知識的基準。
燈	LaMP（Language Models Personalization）是評估語言模型個人化能力的基準。
語言模型委員會	語言模型委員會 (LMC) 是評估高度主觀且通常缺乏多數人一致同意的任務的基準。
法律法庭	LawBench是評估LLM法律能力的基準。
拉排行榜	La Leaderboard 評估和追蹤西班牙、拉丁美洲和加勒比海地區法學碩士的記憶、推理和語言能力。
邏輯科爾	LogicKor是評估韓國法學碩士多學科思考能力的標竿。
長ICL排行榜	LongICL Leaderboard 是評估法學碩士長期情境學習評估的平台。
盧格勒	LooGLE 是評估法學碩士長期情境理解能力的基準。
左旋W	LAiW是評估中國法律語言理解和推理的基準。
LLM 基準套件	LLM Benchmarker Suite是評估LLM綜合能力的基準。
英語環境下的大語言模型評估	英語環境下的大型語言模型評估是一個在英語環境下評估法學碩士的平台。
中文環境下的大語言模型評估	中國語境下的大語言模型評估是一個在中國語境下評估法學碩士的平台。
天秤座	LIBRA 是評估法學碩士理解和處理俄語長文本能力的基準。
LibrAI-Eval GenAI 排行榜	LibrAI-Eval GenAI 排行榜重點在於法學碩士英語能力和安全性之間的平衡。
現場工作台	LiveBench 是法學碩士的基準，可最大程度地減少測試集污染，並在各種定期更新的任務中實現客觀、自動化的評估。
LLME值	LLMEval 是評估與法學碩士開放領域對話品質的基準。
Llmeval-高考2024-數學	Llmeval-Gaokao2024-Math 是評估法學碩士 2024 年高考中文數學題的基準。
法學碩士幻覺排行榜	幻覺排行榜根據一系列與幻覺相關的基準來評估法學碩士。
法學碩士性能	LLMPerf 是一個使用負載和正確性測試來評估 LLM 效能的工具。
法學碩士疾病風險預測排行榜	法學碩士疾病風險預測排行榜是評估法學碩士疾病風險預測的平台。
法學碩士排行榜	LLM 排行榜追蹤和評估 LLM 供應商，從而能夠根據使用者需求選擇最佳的 API 和模型。
CRM 法學碩士排行榜	CRM LLM Leaderboard 是一個評估 LLM 對商業應用的有效性的平台。
法學碩士天文台	LLM Observatory 是一個基準，根據法學碩士在避免 LGBTIQ+ 取向、年齡、性別、政治、種族、宗教和仇外心理等類別的社會偏見方面的表現對法學碩士進行評估和排名。
LLM價格排行榜	LLM 價格排行榜根據一百萬個代幣追蹤和比較 LLM 成本。
法學碩士排名	LLM 排名根據提示和完成的標準化標記使用情況提供語言模型的即時比較，並經常更新。
LLM角色扮演排行榜	LLM 角色扮演排行榜評估人類和人工智慧在社交狼人遊戲中的表現，以促進 NPC 的發展。
法學碩士安全排行榜	LLM安全排行榜旨在為語言模型安全性提供統一的評估。
LLM用例排行榜	LLM 用例排行榜追蹤並評估業務用例中的 LLM。
法學碩士-AggreFact	LLM-AggreFact 是一個事實檢查基準，根據事實評估匯總最新的公開資料集。
LLM-排行榜	LLM-Leaderboard 是社群共同努力為 LLM 創建一個中央排行榜。
LLM-Perf 排行榜	LLM-Perf Leaderboard 旨在對具有不同硬體、後端和最佳化的 LLM 的效能進行基準測試。
LM考試QA	LMExamQA 是一個基準測試框架，其中語言模型充當審查員，以無參考、自動化的方式產生問題並評估回答，以實現全面、公平的評估。
長椅	LongBench 是評估法學碩士長期上下文理解能力的基準。
龍	Loong 是一個長上下文基準，用於評估法學碩士在金融、法律和學術場景中的多文件 QA 能力。
低位量化開放LLM排行榜	低位量化開放 LLM 排行榜追蹤並比較具有不同量化演算法的量化 LLM。
左心室評估	LV-Eval 是一個長上下文基準測試，具有五個長度等級和先進技術，用於跨雙語資料集的單跳和多跳 QA 任務準確評估法學碩士。
露西·埃瓦爾	LucyEval 對法學碩士在不同中國背景下的表現進行了全面評估。
L-評估	L-Eval 是一個長上下文語言模型 (LCLM) 評估基準，用於評估處理廣泛上下文的效能。
M3KE	M3KE是一個大規模的多層次多學科知識評估基準，用於衡量中國法學碩士所獲得的知識。
元批評	MetaCritique 是一位法官，可以透過產生評論來評估人類撰寫的或法學碩士產生的評論。
薄荷	MINT 是評估法學碩士透過使用工具和利用自然語言回饋來解決多輪互動任務的能力的基準。
海市蜃樓	Mirage 是醫學資訊檢索增強產生的基準，包含來自 5 個醫學 QA 資料集的 7,663 個問題，並使用 MedRag 工具包透過 41 種配置進行了測試。
醫學工作台	MedBench是評估醫學法學碩士知識掌握和推理能力的基準。
醫療台	MedS-Bench 是一個醫學基準，使用 39 個不同的資料集評估 11 個任務類別的法學碩士。
Meta Open LLM 排行榜	Meta Open LLM 排行榜作為一個中心樞紐，用於將各種開放 LLM 排行榜的資料整合到一個用戶友好的視覺化頁面中。
MIMIC 臨床決策排行榜	MIMIC 臨床決策排行榜追蹤和評估法學碩士在腹部病理的實際臨床決策中的情況。
混合評估	MixEval 是透過策略性地混合現成基準來評估 LLM 的基準。
ML.ENERGY 排行榜	ML.ENERGY Leaderboard 評估法學碩士的能源消耗。
醫學碩士	MMedBench 是評估法學碩士多語言理解能力的醫學基準。
MMLU	MMLU 是評估法學碩士在各種自然語言理解任務中表現的基準。
MMLU 按任務排行榜	MMLU 按任務排行榜提供了一個平台，用於評估和比較不同語言理解任務中的各種 ML 模型。
MMLU-專業版	MMLU-Pro 是 MMLU 的更具挑戰性的版本，用於評估法學碩士的推理能力。
ModelScope LLM 排行榜	ModelScope LLM Leaderboard是一個客觀、全面評估LLM的平台。
模型評估排行榜	模型評估排行榜使用 Mosaic Eval Gauntlet 框架根據文字生成模型在各種基準上的表現來追蹤和評估文字生成模型。
MSNP 排行榜	MSNP Leaderboard 透過 Ollama 使用單節點設定追蹤和評估量化 GGUF 模型在各種 GPU 和 CPU 組合上的效能。
MSTEB	MSTEB 是衡量西班牙文文字嵌入模型表現的基準。
MTEB	MTEB 是一個大型基準測試，用於衡量文字嵌入模型在 112 種語言的各種嵌入任務上的表現。
MTEB競技場	MTEB Arena 託管一個模型競技場，透過基於使用者的查詢和檢索比較對嵌入模型進行動態、真實的評估。
MT-長椅-101	MT-Bench-101 是用於在多輪對話中評估 LLM 的細粒度基準。
我的馬來語LLM排行榜	我的馬來文法碩士排行榜旨在追蹤、排名和評估馬來語任務的開放法學碩士。
諾查	NoCha 是評估長上下文語言模型驗證虛構書籍聲明的能力的基準。
NPHard評估	NPHardEval 是透過計算複雜性類別的角度評估法學碩士推理能力的基準。
Occiglot 歐洲法學碩士排行榜	Occiglot 歐洲法學碩士排行榜對 Okapi 基準和 Belebele（法語、義大利語、德語、西班牙語和荷蘭語）的四種主要語言的法學碩士進行了比較。
奧林匹克長凳	OlympiadBench 是一個雙語多模式科學基準測試，包含 8,476 個奧林匹克級別的數學和物理問題，並帶有專家級的逐步推理註釋。
奧林匹克競技場	OlympicArena 是評估法學碩士應對各種奧運會級別挑戰的先進能力的基準。
奧巴布加	Oobabooga 是使用 oobabooga Web UI 執行 LLM 可重複效能測試的基準。
開放評估	OpenEval是一個評估中國LLM的平台。
OpenLLM 土耳其排行榜	OpenLLM 土耳其語排行榜追蹤土耳其語 LLM 的進展並對他們的表現進行排名。
開放度排行榜	開放性排行榜追蹤和評估模型在權重、資料和許可證的開放存取方面的透明度，揭露不符合開放性標準的模型。
開放度排行榜	開放性排行榜是一個工具，用於追蹤指令調整的法學碩士的開放性，評估其透明度、數據和模型可用性。
開放研究員	OpenResearcher 包含各種 RAG 相關係統的基準測試結果作為排行榜。
開啟阿拉伯語 LLM 排行榜	開放阿拉伯語文法碩士排行榜追蹤阿拉伯語文法碩士的進度並對錶現進行排名。
開啟中國LLM排行榜	開放中國法學碩士排行榜旨在追蹤、排名和評估開放中國法學碩士。
打開 CoT 排行榜	Open CoT Leaderboard 追蹤法學碩士產生有效的思維鏈推理軌蹟的能力。
開啟荷蘭 LLM 評估排行榜	開放式荷蘭文法碩士評估排行榜追蹤荷蘭文法碩士的進度並對錶現進行排名。
開放金融 LLM 排行榜	開放金融法學碩士排行榜旨在評估和比較金融法學碩士的表現。
開啟 ITA LLM 排行榜	Open ITA LLM 排行榜追蹤義大利語 LLM 的進度並對錶現進行排名。
開啟 Ko-LLM 排行榜	開放式 Ko-LLM 排行榜追蹤韓語法學碩士的進展並對他們的表現進行排名。
開啟 LLM 排行榜	開放式法學碩士排行榜追蹤英語法學碩士的進度並對其表現進行排名。
開放醫學法學碩士排行榜	開放式醫學法學碩士排行榜旨在追蹤、排名和評估醫學領域的開放式法學碩士。
開啟 MLLM 排行榜	開放 MLLM 排行榜旨在追蹤、排名和評估 LLM 和聊天機器人。
開啟 MOE LLM 排行榜	OPEN MOE LLM 排行榜評估各種專家混合 (MoE) 法學碩士的表現和效率。
開放多語言LLM評估排行榜	開放式多語言法學碩士評估排行榜追蹤進度並對多種語言法學碩士的表現進行排名。
Open PL LLM 排行榜	Open PL LLM 排行榜是一個用於評估各種波蘭語 LLM 表現的平台。
開啟葡萄牙語 LLM 排行榜	開放式 PT LLM 排行榜旨在評估和比較葡萄牙語任務中的 LLM。
開啟台灣LLM排行榜	開放台灣法學碩士排行榜展示了法學碩士在各種台灣普通話理解任務上的表現。
開放式法學碩士排行榜	Open-LLM-Leaderboard 透過從多項選擇題 (MCQ) 過渡到開放式問題來評估 LLM 的語言理解和推理能力。
OPUS-MT 儀表板	OPUS-MT Dashboard 是一個跨多個語言對和指標追蹤和比較機器翻譯模型的平台。
手術台	OR-Bench 是評估法學碩士過度拒絕增強安全性的基準。
帕爾斯長凳	ParsBench 提供了基於波斯語的 LLM 基準測試工具包。
波斯法學碩士排行榜	波斯文法學碩士排行榜提供了對波斯文法學碩士的可靠評估。
皮諾丘 ITA 排行榜	Pinocchio ITA 排行榜追蹤與評估義大利文法碩士。
PL-MTEB	PL-MTEB（波蘭語大規模文本嵌入基準）是評估 28 個 NLP 任務中波蘭語文本嵌入的基準。
波蘭醫學排行榜	波蘭醫學排行榜評估波蘭委員會認證考試的語言模式。
由英特爾提供支援的 LLM 排行榜	由英特爾提供支援的 LLM 排行榜對已在英特爾硬體上進行預訓練或微調的 LLM 進行評估、評分和排名。
公共醫學品質保證	PubMedQA 是評估生物醫學研究問答的基準。
提示台	PromptBench 是評估法學碩士在對抗性提示上的穩健性的基準。
QAConv	QAConv 是使用複雜、特定領域和非同步對話作為知識來源的問答基準。
品質	QuALITY 是評估長上下文多項選擇題答案的基準。
兔子	RABBITS 是透過評估法學碩士對同義詞（特別是品牌和通用藥物名稱）的處理來評估其穩健性的基準。
樂田	Rakuda 是評估法學碩士的基準，根據他們回答一系列有關日語主題的開放式問題的程度。
紅隊競技場	RedTeam Arena 是針對法學碩士的紅隊平台。
紅隊抵抗基準	紅隊阻力基準是評估法學碩士針對紅隊提示的穩健性的基準。
休息-MCTS*	ReST-MCTS* 是一種強化自訓練方法，它使用樹搜尋和流程獎勵推理來收集高品質的推理軌跡，用於訓練策略和獎勵模型，而無需手動步驟註釋。
評論家競技場	審稿人競技場是審稿人競技場的所在地，各個法學碩士根據他們在審查學術論文時的表現進行競爭。
角色評估	RoleEval是評估法學碩士角色知識記憶、運用和推理能力的雙語基準。
RPBench 排行榜	RPBench-Auto 是一個自動化管道，用於評估法學碩士，使用 80 個基於角色的角色和 80 個基於場景的角色扮演場景。
俄羅斯聊天機器人競技場	聊天機器人競技場舉辦了一個聊天機器人競技場，各種法學碩士根據用戶滿意度用俄語進行競爭。
俄羅斯強力膠	Russian SuperGLUE 是俄語語言模型的基準，專注於邏輯、常識和推理任務。
R-法官	R-Judge 是評估法學碩士在給定代理交互記錄的情況下判斷和識別安全風險的熟練程度的基準。
安全提示	Safety Prompts是評估中國LLM安全性的一個基準。
安全凳	SafetyBench是評估LLM安全性的基準。
沙拉台	SALAD-Bench 是評估法學碩士安全性的基準。
掃描評估	ScandEval 是評估法學碩士斯堪的納維亞語言以及德語、荷蘭語和英語任務的基準。
科學排行榜	科學排行榜是評估法學碩士解決科學問題能力的平台。
科學GLM	SciGLM 是一套科學語言模型，它使用自我反思的指令註釋框架，透過產生和修改未標記問題的逐步解決方案來增強科學推理。
科學知識評估	SciKnowEval是評估LLM學生博學、勤問、深思、明辨、刻苦的水平的基準。
捲軸	SCROLLS 是評估法學碩士在長文本上的推理能力的基準。
海上考試	SeaExam 是評估東南亞 (SEA) 語言法學碩士的基準。
SEAL LLM 排行榜	SEAL LLM Leaderboards 是一個由專家驅動的 LLM 私人評估平台。
海評估	SeaEval 是評估多語言法學碩士在自然語言理解和推理以及理解文化實踐、細微差別和價值觀方面表現的基準。
海舵	SEA HELM 是評估法學碩士在英語和東南亞任務中表現的基準，專注於聊天、遵循指示和語言能力。
安全評估	SecEval 是評估基礎模型網路安全知識的基準。
自我提升排行榜	自我改進排行榜 (SIL) 是一個動態平台，不斷更新測試資料集和排名，為開源法學碩士和聊天機器人提供即時效能見解。
規格台	Spec-Bench 是評估不同情境的推測性解碼方法的基準。
結構評估	StructEval 是透過跨多個認知層次和關鍵概念進行結構化評估來評估法學碩士的基準。
次二次法學碩士排行榜	Subquadratic LLM Leaderboard 使用次二次/無注意力架構（即 RWKV 和 Mamba）評估 LLM。
超級長凳	SuperBench 是一個全面的任務和維度系統，用於評估法學碩士的整體能力。
超級膠水	SuperGLUE 是評估法學碩士在一系列具有挑戰性的語言理解任務上的表現的基準。
超限	SuperLim 是評估瑞典文法碩士語言理解能力的基準。
斯瓦希里文法學碩士排行榜	斯瓦希里語法碩士排行榜是社區共同努力為法學碩士創建一個中央排行榜。
S-評估	S-Eval 是一個全面的、多維度的安全基準，具有 220,000 個提示，旨在評估跨各種風險維度的 LLM 安全性。
表 QAE 值	TableQAEval 是評估 LLM 在長表建模和理解能力（例如數值和多跳推理）方面的表現的基準。
TAT-DQA	TAT-DQA 是評估法學碩士對結合結構化和非結構化資訊的文件進行離散推理的基準。
TAT-QA	TAT-QA 是評估法學碩士對結合表格和文字內容的文件的離散推理的基準。
泰國法學碩士排行榜	泰國法學碩士排行榜旨在追蹤和評估泰語任務中的法學碩士。
樁	Pile是評估LLM的世界知識和推理能力的基準。
豆腐	TOFU 是評估法學碩士在現實場景中遺忘表現的基準。
Toloka LLM 排行榜	Toloka LLM 排行榜是基於真實的使用者提示和專家手動評估來評估 LLM 的基準。
工具台	ToolBench 是一個專門針對工具學習的法學碩士培訓、服務和評估平台。
毒性排行榜	毒性排行榜評估法學碩士的毒性。
Trustbit 法學碩士排行榜	Trustbit LLM 排行榜是一個為法學碩士建構和發布產品提供基準的平台。
信託法學碩士	TrustLLM是評估LLM可信度的基準。
圖靈建議	TuringAdvice 是評估語言模型為現實生活中的開放式情境產生有用建議的能力的基準。
導師評估	TutorEval 是一個問答基準，用於評估法學碩士導師幫助使用者理解科學教科書章節的能力。
T-評估	T-Eval是評估LLM工具利用能力的基準。
UGI排行榜	UGI 排行榜衡量並比較法學碩士已知的未經審查和有爭議的資訊。
超評估	UltraEval 是一個開源框架，用於跨各種性能維度對法學碩士進行透明且可重複的基準測試。
瓦爾斯人工智慧	Vals AI 是一個評估生成式人工智慧在現實世界法律任務中的準確性和有效性的平台。
錄影機	視覺常識推理（VCR）是認知級視覺理解的基準，要求模型回答視覺問題並為其答案提供理由。
維多雷	ViDoRe 是評估檢索模型在頁面層級將查詢與相關文件配對的能力的基準。
VLLM 排行榜	VLLM 排行榜旨在追蹤、排名和評估開放的法學碩士和聊天機器人。
VMLU	VMLU 是評估越南語基礎模型整體能力的基準。
狂野長凳	WildBench 是一個評估語言模型的基準，用於評估與現實應用程式非常相似的挑戰性任務的語言模型。
協治	協志是法學碩士整體領域知識評估的基準。
亞諾利亞競技場	Yanolja Arena 設有一個模型競技場，用於評估法學碩士總結和翻譯文本的能力。
另一個 LLM 排行榜	Yet Another LLM Leaderboard 是一個用於追蹤、排名和評估開放式 LLM 和聊天機器人的平台。
斑馬邏輯	ZebraLogic 是使用邏輯網格謎題（一種約束滿足問題 (CSP)）評估法學碩士邏輯推理能力的基準。
零和評估	ZeroSumEval 是一個針對法學碩士的競爭性評估框架，使用具有明確獲勝條件的多人模擬。

影像

姓名	描述
抽象圖像	抽象圖像是評估多模態法學碩士 (MLLM) 對抽象圖像（例如地圖、圖表和佈局）的理解和視覺推理能力的基準。
AesBench	AesBench 是評估 MLLM 影像美學感知的基準。
眨	BLINK 是評估 MLLM 核心視覺感知能力的基準。
閃爍碼	BlinkCode 是評估 15 個視覺語言模型 (VLM) 和 9 個任務的 MLLM 的基準，衡量準確性和影像重建表現。
關心	CARES 是一個基準，使用來自 16 種醫學影像模式和 27 個解剖區域的 41K 個問答對來評估 Med-LVLM 在可信性、公平性、安全性、隱私性和穩健性方面的可信度。
圖表模擬	ChartMimic 是使用圖表和文字指令評估大型多模式模型的基於視覺的程式碼產生能力的基準。
字符Xiv	CharXiv 是評估 MLLM 圖表理解能力的基準。
情境	ConTextual 是跨情境敏感的文本豐富的視覺推理任務評估 MLLM 的基準。
核心MM	CORE-MM 是評估 MLLM 開放式視覺問答 (VQA) 能力的基準。
夢想長椅++	DreamBench++ 是一個透過多模態模型自動化的人性化基準測試，用於產生個人化影像。
EgoPlan-Bench	EgoPlan-Bench 是評估 MLLM 在現實世界、以自我為中心的場景中的規劃能力的基準。
故障測試台	GlitchBench 是在檢測電玩故障的背景下評估 MLLM 推理能力的基準。
幻覺長椅	HallusionBench 是評估 MLLM 影像上下文推理能力的基準。
InfiMM-評估	InfiMM-Eval 是評估 MLLM 開放式 VQA 功能的基準。
LRVSF 排行榜	LRVSF Leaderboard 是評估時尚領域圖像相似性搜尋法學碩士的平台。
LVLM排行榜	LVLM Leaderboard 是一個評估 MLLM 視覺推理能力的平台。
M3CoT	M3CoT 是 MLLM 的多域多步驟多模式思想鏈的基準。
紀念品	Mementos 是評估 MLLM 對影像序列的推理能力的基準。
MJ 長椅	MJ-Bench 是評估多模態法官在為影像生成模型提供回饋方面的基準，涵蓋四個關鍵角度：對齊、安全性、影像品質和偏差。
MLLM 作為法官	MLLM-as-a-Judge 是一個帶有人工註釋的基準，用於評估 MLLM 在跨多模態域的評分、配對比較和批量排名任務中的判斷能力。
MLLM 工作台	MLLM-Bench 是評估 MLVM 視覺推理能力的基準。
MMBench 排行榜	MMBench Leaderboard 是評估 MLLM 視覺推理能力的平台。
微機電系統	MME是評估MLLM視覺推理能力的基準。
MME-真實世界	MME-RealWorld 是一個大規模、高解析度的基準測試，包含 43 個任務中的 29,429 個人工註釋的 QA 對。
MMIU	MMIU（Ultimodal Multi-image Understanding）是評估 MLLM 的基準，涵蓋 7 個多影像關係、52 個任務、77K 個影像和 11K 個精選多項選擇題。
MMMU	MMMU 是評估多模態模型在需要大學級學科知識和跨學科專家級推理的任務上的表現的基準。
MMR	MMR 是評估 MLLM 在視覺理解方面穩健性的基準，透過評估它們處理主要問題的能力，而不僅僅是答案的準確性。
MM搜尋	MMSearch 是評估 LMM 多模態搜尋效能的基準。
MM星	MMStar 是評估 MLLM 多重模式能力的基準。
MMT-長凳	MMT-Bench 是評估 MLLM 跨多種多模式任務的基準，這些任務需要專業知識以及深思熟慮的視覺識別、定位、推理和規劃。
MM-NIAH	MM-NIAH（多模態大海撈針）是評估 MLLM 透過涉及文字和影像資料的檢索、計數和推理任務來理解長多模態文件的能力的基準。
MTV品質保證	MTVQA 是用於評估 MLLM 的多語言視覺文字理解基準。
多模態幻覺排行榜	多模態幻覺排行榜根據各種任務中的幻覺水平對 MLLM 進行比較。
多基準測試	MULTI-Benchmark 是評估 MLLM 理解複雜表格和圖像以及長上下文推理的基準。
多重信任	MultiTrust 是評估 MLLM 可信度的基準，涵蓋五個主要面向：真實性、安全性、穩健性、公平性和隱私性。
NPHardEval4V	NPHardEval4V 是透過計算複雜性類別的角度來評估 MLLM 推理能力的基準。
提供者排行榜	LLM API 提供者排行榜是一個平台，用於比較跨 LLM 端點的效能關鍵指標的 API 提供者效能。
OCRBench	OCRBench 是評估多模態模型 OCR 能力的基準。
PCA工作台	PCA-Bench是評估多模態模型體現決策能力的基準。
Q 台	Q-Bench 是評估 MLLM 視覺推理能力的基準。
獎勵台	RewardBench是評估獎勵模型功能和安全性的基準。
科學品質保證	ScienceQA 是一個基準，用於評估人工智慧系統在回答科學問題的情況下的多跳推理能力和可解釋性。
SciGraphQA	SciGraphQA 是評估科學圖問答中 MLLM 的基準。
SEED-工作台	SEED-Bench 是評估多模態模型的文字和圖像生成的基準。
烏裡亞爾	URIAL是評估語言模型對齊能力的基準，沒有引入微調因素（學習率、數據等），這些因素很難控制以進行公平比較。
UPD 排行榜	UPD Leaderboard 是一個評估 MLLM 在無法解決的問題偵測中的可信度的平台。
氛圍評估	Vibe-Eval 是針對挑戰性案例評估 MLLM 的基準。
視頻Hallucer	VideoHallucer 是檢測 MLLM 中幻覺的基準。
VisIT-Bench	VisIT-Bench 是評估 MLLM 實際使用的指令追蹤能力的基準。
Waymo 開放資料集挑戰	Waymo 開放資料集挑戰賽擁有多種自動駕駛資料集來評估 ML 模型。
哎呀！	哎呀！是評估 MLLM 視覺常識推理能力的基準。
WildVision-長凳	WildVision-Bench 是根據人類偏好在野外評估 VLM 的基準。
狂野視覺競技場	WildVision Arena 是聊天機器人競技場，各種 MLLM 在此根據其視覺理解表現進行競爭。

程式碼

姓名	描述
Aider LLM 排行榜	Aider LLM 排行榜評估 LLM 依照系統提示編輯程式碼的能力。
應用世界	AppWorld 是一個包含 9 個日常應用程式的高保真執行環境，可透過 457 個 API 進行操作，充滿了生活在模擬世界中的約 100 人的數位活動。
伯克利函數呼叫排行榜	伯克利函數調用排行榜評估法學碩士準確地調用函數（也稱為工具）的能力。
大程式碼平台	BigCodeBench 是針對實際且具有挑戰性的程式設計任務的程式碼產生的基準。
大程式碼模型排行榜	大代碼模型排行榜是一個追蹤和評估法學碩士在代碼相關任務上的表現的平台。
鳥	BIRD 是評估文字到 SQL 解析系統效能的基準。
書籍SQL	BookSQL 是評估各行業的財務和會計領域的文本到 SQL 系統的基準，其資料集包含來自 27 家企業的 100 萬筆交易。
CanAiCode排行榜	CanAiCode Leaderboard是評估LLM程式碼產生能力的平台。
類評估	ClassEval 是評估 LLM 類別級程式碼產生的基準。
代碼頂點	CodeApex 是透過多項選擇題和 C++ 演算法問題的程式碼產生來評估法學碩士程式理解能力的基準。
代碼範圍	CodeScope 是評估跨 43 種語言和 8 個任務的 LLM 編碼能力的基準，綜合考慮難度、效率和長度。
跨洋程式碼	CodeTransOcean 是評估多種程式語言的程式碼翻譯的基準，包括流行的、利基的和 LLM 翻譯的程式碼。
語言程式碼	Code Lingua 是一個基準，用於比較程式碼模型理解原始語言中程式碼實現的內容以及將相同語義翻譯為目標語言的能力。
編碼 LLM 排行榜	編碼法學碩士排行榜是一個對各種程式設計任務的法學碩士進行評估和排名的平台。
提交-0	Commit-0 是一項從頭開始的 AI 編碼挑戰，旨在重建 54 個核心 Python 庫，確保它們通過具有顯著測試覆蓋率、lint/類型檢查和基於雲端的分散式開發的單元測試。
癥結評估	CRUXEval是評估LLM的程式碼推理、理解和執行能力的基準。
蜘蛛人	CSpider 是評估系統在多樣化、複雜和跨域資料庫中從中文自然語言產生 SQL 查詢的能力的基準。
網路安全評估	CyberSecEval 是評估法學碩士作為編碼助理的網路安全性的基準。
DevOps AI 助理開放排行榜	DevOps AI Assistant 開放排行榜對跨知識領域的 DevOps AI Assistant 進行追蹤、排名和評估。
DevOps-評估	DevOps-Eval 是評估 DevOps/AIOps 領域程式碼模型的基準。
域評估	DomainEval 是一個自動建置的多域程式碼產生基準。
蜘蛛博士	Dr.Spider 是使用不同擾動測試集評估文字到 SQL 模型穩健性的基準。
效率基準	EffiBench 是評估 LLM 程式碼產生效率的基準。
評估加號	EvalPlus 是評估 LLM 程式碼產生效能的基準。
EvoCodeBench	EvoCodeBench 是一個與現實世界程式碼儲存庫保持一致的進化程式碼產生基準。
進化評估	EvoEval 是評估法學碩士編碼能力的基準，透過將現有基準演變為不同的目標領域而創建。
英菲基準	InfiBench 是評估程式碼模型回答自由形式現實世界程式碼相關問題的基準。
間碼	InterCode 是標準化和評估具有執行回饋的互動式編碼的基準。
茱莉亞法學碩士排行榜	Julia LLM Leaderboard 是一個比較程式碼模型產生語法正確的 Julia 程式碼的能力的平台，具有結構化測試和自動評估功能，可輕鬆進行協作基準測試。
即時代碼平台	LiveCodeBench 是隨著時間的推移評估跨程式碼相關場景的程式碼模型的基準。
長碼競技場	Long Code Arena 是一套針對具有大型上下文（直至整個程式碼儲存庫）的程式碼相關任務的基準測試。
麥克埃瓦爾	McEval 是一個大規模多語言代碼評估基準，涵蓋 40 種語言（總共 44 種語言，16K 個樣本），涵蓋多語言代碼生成、多語言代碼解釋和多語言代碼補全任務。
大代碼模型排行榜的記憶或生成	大程式碼模型的記憶或產生排行榜追蹤並比較程式碼生成模型的表現。
多 SWE 工作台	Multi-SWE-bench 是代碼代理的多語言 GitHub 問題解決基準。
自然程式碼基準	NaturalCodeBench 是反映真實編碼任務中複雜性和場景多樣性的基準。
Nexus 函數呼叫排行榜	Nexus 函數呼叫排行榜是一個評估執行函數呼叫和 API 使用的程式碼模型的平台。
NL2SQL360	NL2SQL360是一個綜合評估框架，用於跨各種應用情境比較和最佳化NL2SQL方法。
太平洋經濟合作委員會	PECC 是一個評估程式碼產生的基準，要求模型從基於敘述的描述中理解和提取問題需求，以產生語法上準確的解決方案。
ProLLM 基準	ProLLM Benchmarks 是一個實用且可靠的 LLM 基準，專為跨多個行業和程式語言的實際業務用例而設計。
pybench	PyBench 是評估 LLM 在現實世界編碼任務上的基準，包括圖表分析、文字分析、圖像/音訊編輯、複雜數學和軟體/網站開發。
種族	RACE是評估法學碩士產生正確且滿足實際開發場景要求的程式碼能力的基準。
回購品質保證	RepoQA是評估LLM長上下文程式碼理解能力的基準。
科學程式碼	SciCode 是一個基準測試，旨在評估生成程式碼以解決實際科學研究問題的語言模型。
SolidityBench	SolidityBench 是評估和排名法學碩士產生和審計智慧合約能力的基準。
蜘蛛	Spider是評估跨域資料庫自然語言介面效能的基準。
穩定工具台	StableToolBench 是評估工具學習的基準，旨在提供穩定性和現實性的良好平衡組合。
SWE-長凳	SWE-bench 是從 GitHub 收集的用於評估 LLM 實際軟體問題的基準。
網路應用1K	WebApp1K 是評估法學碩士開發實際 Web 應用程式能力的基準。
網路開發競技場	WebDev Arena 舉辦了一個聊天機器人競技場，各種法學碩士在此根據網站開發進行競爭。
百搭	WILDS 是野外分佈變化的基準，涵蓋多種數據模式和應用，從腫瘤識別到野生動物監測再到貧困地圖。

影片

姓名	描述
ChronoMagic-長凳	ChronoMagic-Bench 是一個基準，用於評估視訊模型使用自由格式文字控制在物理、生物和化學領域生成具有高變形幅度和時間連貫性的延時視訊的能力。
夢想1K	DREAM-1K 是評估 1,000 個不同影片剪輯的影片描述表現的基準，這些影片剪輯具有來自電影、動畫、庫存影片、YouTube 和 TikTok 風格短影片的豐富事件、動作和動作。
長視頻台	LongVideoBench 是評估視訊模型回答推理問題能力的基準，這些問題依賴長幀輸入，無法透過單幀或幾個稀疏幀很好地解決。
LVBench	LVBench 是評估需要擴展記憶體和理解能力的長視頻理解任務的多模態模型的基準。
MLVU	MLVU 是評估多任務長視訊理解中視訊模型的基準。
MMToM品質保證	MMToM-QA 是多模態基準，用於評估機器心理理論 (ToM)，即理解人們思想的能力。
MVBench	MVBench 是評估動態視訊任務中視訊模型的時間理解能力的基準。
OpenVLM 影片排行榜	OpenVLM Video Leaderboard 是一個使用 VLMEvalKit 框架展示 30 個不同 VLM 在視訊理解基準上的評估結果的平台。
溫度指南針	TempCompass 是評估視訊法學碩士時間感知的基準，使用 11 個時間方面和 4 種任務類型的 410 個影片和 7,540 個任務指令。
VBBench	VBench是評估視訊模型的視訊產生能力的基準。
視訊NIAH	VideoNIAH是評估視訊模型的細粒度理解和時空建模能力的基準。
視訊物理	VideoPhy 是一個基準，用於評估生成的影片是否符合現實世界材料互動中的物理常識。
影片配樂	VideoScore 是在五個關鍵維度上評估文字到影片產生模型的基準。
影片維斯塔	VideoVista 是一個基準測試，包含來自 14 個類別的 3,400 個影片的 25,000 個問題，涵蓋 19 項理解任務和 8 項推理任務。
視訊工作台	Video-Bench是評估視訊模型的視訊專有理解、先驗知識融合和基於視訊的決策能力的基準。
視訊MME	Video-MME是評估視訊模型的視訊分析能力的基準。

數學

姓名	描述
亞伯	Abel 是一個評估法學碩士數學能力的平台。
數學台	MathBench是針對法學碩士的多層次難度數學評估基準。
數學評估	MathEval是評估法學碩士數學能力的基準。
數學使用者評估	MathUserEval 是一個基準測試，包含大學考試問題和與經驗豐富的註釋者的模擬對話中得出的數學相關查詢。
數學詩篇	MathVerse 是評估視覺語言模型在數學問題中使用視覺資訊進行解釋和推理的基準。
數學維斯塔	MathVista 是評估視覺環境中數學推理的基準。
數學V	MATH-Vision (MATH-V) 是競賽中 3,040 個視覺情境數學問題的基準，涵蓋 16 個學科和 5 個難度級別，用於評估 LMM 的數學推理能力。
打開多語言推理排行榜	開放多語言推理排行榜追蹤法學碩士在多語言數學推理基準上的推理表現並對其進行排名。
普特南基準	PutnamBench是普特南競賽中評估法學碩士形式數學推理能力的基準。
科學基準	SciBench 是評估法學碩士解決複雜科學問題的推理能力的基準。
標籤MWP	TabMWP 是評估法學碩士在涉及文字和表格資料的數學推理任務中的基準。
我們數學	We-Math 是評估法學碩士類人數學推理能力的基準，其解決問題的原則超越了端到端的表現。

代理人

姓名	描述
代理工作台	AgentBench 是在各種不同環境中評估語言模型作為代理的基準。
代理工作室	AgentStudio 是一個整合解決方案，具有深入的基準測試套件、真實的環境和全面的工具包。
角色評估	CharacterEval 是使用多輪對話和角色設定檔評估角色扮演對話代理程式 (RPCA) 的基準，指標涵蓋四個維度。
大多倫多地區	GTA是評估基於LLM的代理人在現實場景中工具使用能力的基準。
Leetcode-硬健身房	Leetcode-Hard Gym 是 LeetCode 提交伺服器的 RL 環境接口，用於評估 codegen 代理。
LLM鬥獸場排行榜	LLM Colosseum Leaderboard 是一個透過街頭霸王 3 中的戰鬥來評估 LLM 的平台。
魔法	MAgIC是衡量多智能體系統中法學碩士認知、適應、理性和協作能力的基準。
Olas 預測基準	Olas Predict Benchmark 是評估代理歷史和未來事件預測的基準。
旅行規劃師	TravelPlanner 是評估 LLM 代理在多種約束下的工具使用和複雜規劃的基準。
VAB	VisualAgentBench (VAB) 是評估和開發 LMM 作為視覺基礎智能體的基準，它包含 5 個跨 3 種代表性視覺智能體任務的不同環境。
視覺網路競技場	VisualWebArena 是評估多模式 Web 代理程式在現實的基於視覺的任務上的效能的基準。
網路代理排行榜	WebAgent Leaderboard 追蹤並評估 LLM、VLM 和代理程式的 Web 導航任務。
網路競技場	WebArena 是一個獨立的、可自架的 Web 環境，用於評估自主代理。
γ-台架	γ-Bench 是一個使用八種經典博弈論場景和動態評分方案評估法學碩士在多智能體環境中博弈能力的框架。
τ-工作台	τ-bench 是一個基準測試，可模擬語言模型模擬使用者與配備特定領域 API 工具和策略指南的語言代理之間的動態對話。

聲音的

姓名	描述
空氣凳	AIR-Bench 是評估音訊模型理解各種類型音訊訊號（包括人類語音、自然聲音和音樂）以及以文字格式與人類互動的能力的基準。
音訊測試平台	AudioBench 是通用指令追蹤音訊模型的基準測試。
開啟 ASR 排行榜	開放 ASR 排行榜提供了一個用於追蹤、排名和評估自動語音辨識 (ASR) 模型的平台。
波蘭 ASR 排行榜	波蘭 ASR 排行榜旨在提供波蘭 ASR/STT 系統性能的全面概述。
鮭魚	SALMon 是一個評估套件，用於對語音語言模型的一致性、背景噪音、情感、說話者身分和房間脈衝響應進行基準測試。
TTS競技場	TTS-Arena 舉辦文字轉語音 (TTS) 競技場，各種 TTS 模型根據生成語音的表現進行競爭。
耳語排行榜	Whisper Leaderboard 是一個追蹤和比較音訊模型在各種資料集上的語音辨識效能的平台。

3D

姓名	描述
3D競技場	3D Arena 是 3D 生成競技場，各種 3D 生成模型根據生成 3D 模型的性能進行競爭。
3D-POPE	3D-POPE 是評估 3D 生成模型中物體幻覺的基準。
3DGen 競技場	3DGen Arena 是 3D 生成競技場，各種 3D 生成模型根據生成 3D 模型的性能進行競爭。
國際收支平衡表	BOP 是根據單一 RGB-D 輸入影像對剛性物體進行 6D 姿態估計的基準。
GPTEval3D	GPTEval3D 是一個基準，用於評估 MLLM 透過多視圖影像作為輸入來理解 3D 內容的能力。

多式聯運

姓名	描述
GenAI競技場	GenAI Arena 是視覺生成競技場，各種視覺模型根據其在影像生成、影像編輯和影片生成方面的表現進行競爭。
標籤盒排行榜	Labelbox Leaderboards 使用其資料工廠（平台、科學流程和專家）評估生成式 AI 模型的效能。
巨型長椅	MEGA-Bench 是多模態評估的基準，具有跨 8 種應用類型、7 種輸入格式、6 種輸出格式和 10 種多模態技能的多種任務，涵蓋單影像、多影像和視訊任務。