awesome foundation model leaderboards下载 - awesome foundation model leaderboards源码下载

很棒的基础模型排行榜

Awesome Foundation Model Leaderboard是一个很棒的基础模型排行榜的精选列表（有关排行榜的解释，请参阅本教程），以及根据我们的调查得出的各种开发工具和评估组织：

关于排行榜操作 (LBOps) 的工作流程和味道：
基础模型排行榜的探索性研究

赵志敏 (Jimmy)、Abdul Ali Bangash、Filipe Roseiro Côgo、Bram Adams、Ahmed E. Hassan

软件分析与智能实验室（SAIL）

如果您发现此存储库有用，请考虑给我们一颗星并引用：

 @article{zhao2024workflows,
  title={On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards},
  author={Zhao, Zhimin and Bangash, Abdul Ali and C{^o}go, Filipe Roseiro and Adams, Bram and Hassan, Ahmed E},
  journal={arXiv preprint arXiv:2407.04065},
  year={2024}
}

此外，我们还提供了一个搜索工具包，可帮助您快速浏览排行榜。

如果您想对此列表做出贡献（请这样做），欢迎提出拉取请求。

如果您对此列表有任何建议、批评或疑问，欢迎提出问题。

此外，如果满足以下条件，则应包含排行榜：

它得到积极维护。
它与基础模型有关。

工具

姓名	描述
演示排行榜	演示排行榜可帮助用户使用标准化模板轻松部署排行榜。
演示排行榜后端	演示排行榜后端帮助用户管理排行榜并处理提交请求，查看此了解详细信息。
Kaggle 竞赛创建	Kaggle 竞赛创建使您能够设计和启动自定义竞赛，利用您的数据集吸引数据科学社区。
排行榜浏览器	排行榜浏览器可帮助用户浏览 Hugging Face Spaces 上提供的各种排行榜。
打开 LLM 排行榜重命名器	open-llm-leaderboard-renamer 可帮助用户轻松重命名 Open LLM Leaderboard 中的模型。
打开 LLM 排行榜结果 PR 开场	Open LLM 排行榜结果 PR Opener 可帮助用户在其模型卡中展示 Open LLM 排行榜结果。
打开 LLM 排行榜抓取器	Open LLM Leaderboard Scraper 可帮助用户从 Open LLM Leaderboard 中抓取和导出数据。
进度追踪器	该应用程序可视化专有和开源法学硕士随着时间的推移的进展，由 LMSYS Chatbot Arena 评分。

挑战

姓名	描述
大众	AIcrowd 面向研究人员和从业者举办跨计算机视觉、NLP 和强化学习等领域的机器学习挑战和竞赛。
人工智能中心	AI Hub 举办各种竞赛，鼓励人工智能解决现实问题，重点关注创新和协作。
人工智能工作室	AI Studio主要针对计算机视觉、NLP和其他数据驱动任务提供人工智能竞赛，让用户能够发展和展示他们的人工智能技能。
艾伦人工智能研究所	艾伦人工智能研究所提供自然语言理解、常识推理和人工智能研究其他领域任务的排行榜和基准。
库达基准	Codabench 是一个用于对 AI 模型进行基准测试的开源平台，支持跨各个 AI 领域的可定制、用户驱动的挑战。
数据源	DataFountain是中国人工智能竞赛平台，以金融、医疗、智慧城市等挑战为主题，鼓励解决行业相关问题。
驱动数据	DrivenData 举办具有社会影响的机器学习挑战赛，旨在解决公共卫生、救灾和可持续发展等领域的问题。
动态基准	Dynabench 提供动态基准，对模型进行持续评估，通常涉及人类交互，以确保不断发展的人工智能任务的稳健性。
评估人工智能	EvalAI 是一个用于托管和参与人工智能挑战的平台，被研究人员广泛用于对图像分类、NLP 和强化学习等任务中的模型进行基准测试。
大挑战	Grand Challenge 为医学成像挑战提供了一个平台，支持医学人工智能的进步，特别是在放射学和病理学等领域。
喜利得	喜利得举办了旨在推进建筑行业人工智能和机器学习的挑战，重点关注与行业相关的实际应用。
洞察面	InsightFace 专注于与人脸识别、验证和分析相关的人工智能挑战，支持身份验证和安全方面的进步。
卡格尔	Kaggle 是最大的数据科学和机器学习竞赛平台之一，涵盖从图像分类到 NLP 和预测建模等广泛主题。
新场景	nuScenes 使研究人员能够使用真正的自动驾驶汽车的完整传感器套件来研究具有挑战性的城市驾驶情况，从而促进自动驾驶的研究。
强劲的阅读比赛	鲁棒阅读是指在不受限制的环境中解释书面交流的研究领域，其竞赛重点是现实环境中的文本识别。
天池	天池由阿里巴巴主办，提供一系列人工智能竞赛，在亚洲特别受欢迎，重点关注商业、医疗保健和物流。

排行榜

型号排行

综合的

姓名	描述
人工分析	人工分析是一个帮助用户在人工智能模型选择和托管提供商方面做出明智决策的平台。
指南针排名	CompassRank是一个为行业和研究提供全面、客观、中立的基础模型评估参考的平台。
标志评估	FlagEval 是一个用于评估基础模型的综合平台。
生成式人工智能排行榜	生成式人工智能排行榜根据各种指标对表现最好的生成式人工智能模型进行排名。
语言模型的整体评估	语言模型的整体评估 (HELM) 是一个可重复且透明的框架，用于评估基础模型。
论文与代码	Papers With Code 提供开源排行榜和基准，将人工智能研究论文与代码联系起来，以提高机器学习的透明度和可重复性。
超级线索	SuperCLUE是评估中国基础模型的一系列基准。
Vellum LLM 排行榜	Vellum LLM 排行榜显示了领先的商业和开源 LLM 的能力、价格和背景窗口的比较。

文本

姓名	描述
ACLUE	ACLUE是古汉语理解能力的评价基准。
非洲语言法学硕士评估排行榜	非洲语言法学硕士评估排行榜跟踪非洲语言法学硕士的进展并对表现进行排名。
代理板	AgentBoard 是多轮 LLM 代理的基准，并辅以分析评估板，用于超出最终成功率的详细模型评估。
AGIE值	AGIEval 是一个以人为中心的基准，用于评估基础模型在与人类认知和解决问题相关的任务中的一般能力。
艾拉排行榜	Aiera Leaderboard 评估法学硕士在金融情报任务上的表现，包括演讲者分配、演讲者变更识别、抽象摘要、基于计算的问答和金融情绪标记。
空气凳	AIR-Bench是评估语言模型异构信息检索能力的基准。
AI能源分数排行榜	AI能源分数排行榜跟踪并比较不同模型的能源效率。
人工智能基准	ai-benchmarks 包含一些流行人工智能服务响应延迟的评估结果。
对齐工作台	AlignBench是一个评估法学硕士中文一致性的多维度基准。
羊驼毛评估	AlpacaEval 是一款专为遵循指令的 LLM 设计的自动评估器。
非政府组织	ANGO是一个面向代的中文语言模型评估基准。
阿拉伯语分词器排行榜	阿拉伯语分词器排行榜比较了法学硕士解析不同方言和形式的阿拉伯语的效率。
Arena-硬自动	Arena-Hard-Auto 是指令调整 LLM 的基准。
赛车	AutoRace专注于使用度量AutoRace（自动推理链评估）对LLM推理链进行直接评估。
汽车竞技场	Auto Arena 是一个基准测试，各种语言模型代理通过对战来评估其性能。
自动J	Auto-J 托管成对响应比较和批评生成任务的评估结果。
巴比龙	BABILong 是评估语言模型在处理具有分布式事实的任意长文档时的性能的基准。
乙肝病毒	BBL (BIG-bench Lite) 是 BIG-bench 24 个不同 JSON 任务的一个小子集。它旨在提供模型性能的规范衡量标准，同时评估成本比 BIG-bench 中全套 200 多个编程和 JSON 任务便宜得多。
诚实	BeHonest 是法学硕士评估诚实的基准，即了解知识边界（自我知识）、避免欺骗（非欺骗性）和回答的一致性（一致性）。
本凳	BenBench是一个基准，用于评估LLM在测试集的基准训练集上进行逐字训练的程度，以增强能力。
本·捷克马克	BenCzechMark (BCM) 是针对法学硕士的多任务和多度量捷克语基准，具有利用统计显着性理论的独特评分系统。
BiGGen 工作台	BiGGen-Bench 是一个综合基准，用于评估法学硕士在各种任务中的表现。
聊天机器人	BotChat是通过代理任务评估LLM多轮聊天能力的基准。
判例法质量保证	CaselawQA 是一个基准，包含来自最高法院和松格上诉法院法律数据库的法律分类任务。
氟利昂	CFLUE是评价LLM对中国金融领域理解和处理能力的基准。
Ch3Ef	Ch3Ef 是一个基准，基于 hhh 原则，使用跨 12 个领域和 46 个任务的 1002 个人工注释样本来评估与人类期望的一致性。
思想链中心	Chain-of-Thought Hub是评估LLM推理能力的基准。
聊天机器人竞技场	聊天机器人竞技场主办了一个聊天机器人竞技场，各种法学硕士根据用户满意度进行竞争。
化学台	ChemBench是评估法学硕士化学知识和推理能力的基准。
中文简单QA	Chinese SimpleQA 是一个评估语言模型回答简短问题的事实能力的中国基准。
CLEM 排行榜	CLEM 是一个框架，旨在对作为对话代理的聊天优化的法学硕士进行系统评估。
克莱瓦	CLEVA 是使用来自 84 个不同数据集和 9 个指标的 370K 中文查询来评估 31 项任务的法学硕士的基准。
中国大模特排行榜	中国大模型排行榜是一个评价中国法学硕士成绩的平台。
中巴	CMB是中国多层次医疗标杆。
CMLU	CMMLU是评估中国文化背景下法学硕士在各学科表现的基准。
坐标测量机	CMMMU 是评估 LMM 在中国背景下需要大学水平学科知识和深思熟虑推理的任务的基准。
通用发电公司	CommonGen 是一个评估生成常识推理的基准，通过测试机器使用给定的一组常见概念组成连贯句子的能力。
混合料	CompMix 是异构问答的基准。
压缩率排行榜	压缩率排行榜旨在评估不同语言的分词器性能。
压缩排行榜	压缩排行榜是一个评估法学硕士压缩性能的平台。
复制台	CopyBench是评估语言模型的复制行为和效用以及降低版权风险方法有效性的基准。
钴评估	CoTaEval 是评估法学硕士版权删除方法的可行性和副作用的基准。
转化率	ConvRe是评估法学硕士理解逆关系能力的基准。
批评者评估	CriticEval 是评估法学硕士做出批评回应能力的基准。
CS-工作台	CS-Bench 是一个双语基准测试，旨在评估法学硕士在 26 个计算机科学子领域的表现，重点关注知识和推理。
可爱的	CUTE 是测试法学硕士拼字法知识的基准。
网络度量	CyberMetric是评估法学硕士网络安全知识的基准。
捷克长凳	CzechBench 是评估捷克语模型的基准。
C-评估	C-Eval是针对法学硕士的中国评估套件。
去中心化竞技场排行榜	Decentralized Arena 拥有一个去中心化和民主的平台，用于 LLM 评估、跨不同的、用户定义的维度（包括数学、逻辑和科学）的自动化和扩展评估。
解码信任	DecodingTrust 是一个评估法学硕士可信度的平台。
领域LLM排行榜	领域LLM排行榜是一个评估特定领域LLM受欢迎程度的平台。
企业场景排行榜	企业场景排行榜跟踪和评估法学硕士在现实企业用例中的表现。
EQ 基准	EQ-Bench 是评估法学硕士情商方面的基准。
欧洲法学硕士排行榜	欧洲法学硕士排行榜跟踪并比较欧洲语言法学硕士的表现。
评估GPT.ai	EvalGPT.ai 托管了一个聊天机器人竞技场，用于对法学硕士的表现进行比较和排名。
评估竞技场	Eval Arena 通过示例级分析和成对比较来比较多个 LLM 评估基准的模型对，从而测量噪声水平、模型质量和基准质量。
事实排行榜	事实排行榜比较了法学硕士的事实能力。
扇出QA	FanOutQA 是一个高质量、多跳、多文档的基准测试，适用于法学硕士，使用英语维基百科作为其知识库。
快速评估	FastEval 是一个工具包，用于在各种基准上快速评估指令跟踪和聊天语言模型，并提供快速推理和详细的性能见解。
有限元法	FELM 是评估法学硕士事实性评估基准的元基准。
芬评估	FinEval 是评估法学硕士金融领域知识的基准。
微调排行榜	微调排行榜是一个对使用开源数据集或框架微调的模型进行排名和展示的平台。
火焰	Flames 是一个高度对抗性的中国基准，用于评估法学硕士在公平、安全、道德、合法性和数据保护方面的价值一致性。
跟随基准	FollowBench是一个多级细粒度约束的基准测试，用于评估LLM的指令跟踪能力。
禁止问题数据集	禁止问题数据集是一个基准，包含 160 个违规类别的 160 个问题，以及相应的评估越狱方法的目标。
保险丝评论	FuseReviews 旨在推进基础文本生成任务，包括长格式问答和摘要。
盖亚	GAIA旨在测试AI助手应具备的基本能力。
嘉维	GAVIE 是一个 GPT-4 辅助基准，用于通过对准确性和相关性进行评分来评估 LMM 中的幻觉，而不依赖于人类注释的基本事实。
GPT-深寻	GPT-Fathom 是一个法学硕士评估套件，对 10 多个领先的法学硕士以及 OpenAI 的遗留模型进行了基准测试，涵盖 7 个能力类别的 20 多个策划基准，所有这些都在一致的设置下。
圣杯质量保证	强泛化问答 (GrailQA) 是 Freebase 上知识库 (KBQA) 问答的大规模、高质量基准，包含 64,331 个问题，并以不同语法（即 SPARQL、S 表达式）标注答案和相应的逻辑形式， ETC。）。
GT基准测试	GTBench 是一个基准，用于通过棋盘游戏和纸牌游戏等博弈论任务来评估和排名法学硕士在竞争环境中的推理能力。
Guerra LLM 人工智能排行榜	Guerra LLM AI 排行榜对 LLM 在质量、价格、性能、上下文窗口等方面的表现进行比较和排名。
幻觉排行榜	幻觉排行榜旨在跟踪、排名和评估法学硕士的幻觉。
HalluQA	HalluQA是评估中国法学硕士幻觉现象的基准。
希伯来语法学硕士排行榜	希伯来语法学硕士排行榜根据语言模型在希伯来语各种任务上的成功情况对语言模型进行跟踪和排名。
海拉斯瓦格	HellaSwag 是评估法学硕士常识推理的基准。
休斯幻觉评估模型排行榜	休斯幻觉评估模型排行榜是一个评估语言模型在总结文档时引入幻觉的频率的平台。
冰岛LLM排行榜	冰岛法学硕士排行榜跟踪并比较冰岛语任务的模型。
IFE值	IFEval 是评估法学硕士的指令跟随能力和可验证指令的基准。
伊尔-图尔	IL-TUR 是评估单语言和多语言任务的语言模型的基准，重点是对印度法律文件的理解和推理。
印度法学硕士排行榜	印度法学硕士排行榜是跟踪和比较印度法学硕士表现的平台。
Indico 法学硕士排行榜	Indico LLM Leaderboard 评估并比较不同提供商、数据集以及文本分类、关键信息提取和生成摘要等功能的各种语言模型的准确性。
指导评估	InstructEval 是一个在法学硕士背景下评估指令选择方法的套件。
意大利法学硕士排行榜	意大利法学硕士排行榜跟踪并比较意大利语任务中的法学硕士。
越狱长凳	JailbreakBench 是通过对抗性提示评估 LLM 漏洞的基准。
日本聊天机器人竞技场	Japanese Chatbot Arena 举办聊天机器人竞技场，各种法学硕士根据日语表现进行竞争。
日语模型财务评估工具	日语模型财务评估工具是用于金融领域日语模型评估的工具。
日本法学硕士角色扮演基准	日本法学硕士角色扮演基准是评估日本法学硕士在角色扮演方面表现的基准。
法学硕士	JMED-LLM（大型语言模型的日本医学评估数据集）是评估日语医学领域法学硕士的基准。
联合MMMU	JMMMU（日语 MMMU）是评估日语 LMM 性能的多模态基准。
正义评估	JustEval 是一款功能强大的工具，专为法学硕士的细粒度评估而设计。
科拉	KoLA是评估LLM世界知识的基准。
灯	LaMP（Language Models Personalization）是评估语言模型个性化能力的基准。
语言模型委员会	语言模型委员会 (LMC) 是评估高度主观且通常缺乏多数人一致同意的任务的基准。
法律法庭	LawBench是评估LLM法律能力的基准。
拉排行榜	La Leaderboard 评估和跟踪西班牙、拉美和加勒比海地区法学硕士的记忆、推理和语言能力。
逻辑科尔	LogicKor是评价韩国法学硕士多学科思维能力的标杆。
长ICL排行榜	LongICL Leaderboard 是一个评估法学硕士长期情境学习评估的平台。
卢格勒	LooGLE 是评估法学硕士长期上下文理解能力的基准。
左旋W	LAiW是评价中国法律语言理解和推理的基准。
LLM 基准套件	LLM Benchmarker Suite是评估LLM综合能力的基准。
英语环境下的大语言模型评估	英语环境下的大型语言模型评估是一个在英语环境下评估法学硕士的平台。
中文环境下的大语言模型评估	中国语境下的大语言模型评估是一个在中国语境下评估法学硕士的平台。
天秤座	LIBRA 是评估法学硕士理解和处理俄语长文本能力的基准。
LibrAI-Eval GenAI 排行榜	LibrAI-Eval GenAI 排行榜重点关注法学硕士英语能力和安全性之间的平衡。
现场工作台	LiveBench 是法学硕士的基准，可最大程度地减少测试集污染，并在各种定期更新的任务中实现客观、自动化的评估。
LLME值	LLMEval 是评估与法学硕士开放领域对话质量的基准。
Llmeval-高考2024-数学	Llmeval-Gaokao2024-Math 是评估法学硕士 2024 年高考中文数学题的基准。
法学硕士幻觉排行榜	幻觉排行榜根据一系列与幻觉相关的基准来评估法学硕士。
法学硕士性能	LLMPerf 是一个使用负载和正确性测试来评估 LLM 性能的工具。
法学硕士疾病风险预测排行榜	法学硕士疾病风险预测排行榜是一个评估法学硕士疾病风险预测的平台。
法学硕士排行榜	LLM 排行榜跟踪和评估 LLM 提供商，从而能够根据用户需求选择最佳的 API 和模型。
CRM 法学硕士排行榜	CRM LLM Leaderboard 是一个评估 LLM 对商业应用的有效性的平台。
法学硕士天文台	LLM Observatory 是一个基准，根据法学硕士在避免 LGBTIQ+ 取向、年龄、性别、政治、种族、宗教和仇外心理等类别的社会偏见方面的表现对法学硕士进行评估和排名。
LLM价格排行榜	LLM 价格排行榜根据一百万个代币跟踪和比较 LLM 成本。
法学硕士排名	LLM 排名根据提示和完成的标准化标记使用情况提供语言模型的实时比较，并经常更新。
LLM角色扮演排行榜	LLM 角色扮演排行榜评估人类和人工智能在社交狼人游戏中的表现，以促进 NPC 的发展。
法学硕士安全排行榜	LLM安全排行榜旨在为语言模型安全性提供统一的评估。
LLM用例排行榜	LLM 用例排行榜跟踪和评估业务用例中的 LLM。
法学硕士-AggreFact	LLM-AggreFact 是一个事实检查基准，根据事实评估汇总最新的公开数据集。
LLM-排行榜	LLM-Leaderboard 是社区共同努力为 LLM 创建一个中央排行榜。
LLM-Perf 排行榜	LLM-Perf Leaderboard 旨在对具有不同硬件、后端和优化的 LLM 的性能进行基准测试。
LM考试QA	LMExamQA 是一个基准测试框架，其中语言模型充当审查员，以无参考、自动化的方式生成问题并评估回答，以实现全面、公平的评估。
长凳	LongBench 是评估法学硕士长期上下文理解能力的基准。
龙	Loong 是一个长上下文基准，用于评估法学硕士在金融、法律和学术场景中的多文档 QA 能力。
低位量化开放LLM排行榜	低位量化开放 LLM 排行榜跟踪并比较具有不同量化算法的量化 LLM。
左室评估	LV-Eval 是一个长上下文基准测试，具有五个长度级别和先进技术，用于跨双语数据集的单跳和多跳 QA 任务准确评估法学硕士。
露西·埃瓦尔	LucyEval 对法学硕士在不同中国背景下的表现进行了全面评估。
L-评估	L-Eval 是一个长上下文语言模型 (LCLM) 评估基准，用于评估处理广泛上下文的性能。
M3KE	M3KE是一个大规模的多层次多学科知识评估基准，用于衡量中国法学硕士所获得的知识。
元批评	MetaCritique 是一个法官，可以通过生成评论来评估人类撰写的或法学硕士生成的评论。
薄荷	MINT 是评估法学硕士通过使用工具和利用自然语言反馈解决多轮交互任务的能力的基准。
海市蜃楼	Mirage 是医学信息检索增强生成的基准，包含来自 5 个医学 QA 数据集的 7,663 个问题，并使用 MedRag 工具包通过 41 种配置进行了测试。
医学工作台	MedBench是评估医学法学硕士知识掌握和推理能力的基准。
医疗台	MedS-Bench 是一个医学基准，使用 39 个不同的数据集评估 11 个任务类别的法学硕士。
Meta Open LLM 排行榜	Meta Open LLM 排行榜作为一个中心枢纽，用于将各种开放 LLM 排行榜的数据整合到一个用户友好的可视化页面中。
MIMIC 临床决策排行榜	MIMIC 临床决策排行榜跟踪和评估法学硕士在腹部病理的实际临床决策中的情况。
混合评估	MixEval 是通过战略性地混合现成基准来评估 LLM 的基准。
ML.ENERGY 排行榜	ML.ENERGY Leaderboard 评估法学硕士的能源消耗。
医学硕士	MMedBench 是评估法学硕士多语言理解能力的医学基准。
MMLU	MMLU 是评估法学硕士在各种自然语言理解任务中表现的基准。
MMLU 按任务排行榜	MMLU 按任务排行榜提供了一个平台，用于评估和比较不同语言理解任务中的各种 ML 模型。
MMLU-专业版	MMLU-Pro 是 MMLU 的更具挑战性的版本，用于评估法学硕士的推理能力。
ModelScope LLM 排行榜	ModelScope LLM Leaderboard是一个客观、全面评估LLM的平台。
模型评估排行榜	模型评估排行榜使用 Mosaic Eval Gauntlet 框架根据文本生成模型在各种基准上的表现来跟踪和评估文本生成模型。
MSNP 排行榜	MSNP Leaderboard 通过 Ollama 使用单节点设置跟踪和评估量化 GGUF 模型在各种 GPU 和 CPU 组合上的性能。
MSTEB	MSTEB 是衡量西班牙语文本嵌入模型性能的基准。
MTEB	MTEB 是一个大型基准测试，用于衡量文本嵌入模型在 112 种语言的各种嵌入任务上的性能。
MTEB竞技场	MTEB Arena 托管一个模型竞技场，通过基于用户的查询和检索比较对嵌入模型进行动态、真实的评估。
MT-长凳-101	MT-Bench-101 是用于在多轮对话中评估 LLM 的细粒度基准。
我的马来语LLM排行榜	我的马来语法学硕士排行榜旨在跟踪、排名和评估马来语任务的开放法学硕士。
诺查	NoCha 是评估长上下文语言模型验证虚构书籍声明的能力的基准。
NPHard评估	NPHardEval 是通过计算复杂性类别的角度评估法学硕士推理能力的基准。
Occiglot 欧洲法学硕士排行榜	Occiglot 欧洲法学硕士排行榜对来自 Okapi 基准和 Belebele（法语、意大利语、德语、西班牙语和荷兰语）的四种主要语言的法学硕士进行了比较。
奥林匹克长凳	OlympiadBench 是一个双语多模式科学基准测试，包含 8,476 个奥林匹克级别的数学和物理问题，并带有专家级的逐步推理注释。
奥林匹克竞技场	OlympicArena 是评估法学硕士应对各种奥运会级别挑战的先进能力的基准。
奥巴布加	Oobabooga 是使用 oobabooga Web UI 执行 LLM 可重复性能测试的基准。
开放评估	OpenEval是一个评估中国LLM的平台。
OpenLLM 土耳其排行榜	OpenLLM 土耳其语排行榜跟踪土耳其语 LLM 的进展并对他们的表现进行排名。
开放度排行榜	开放性排行榜跟踪和评估模型在权重、数据和许可证的开放访问方面的透明度，揭露不符合开放性标准的模型。
开放度排行榜	开放性排行榜是一个工具，用于跟踪指令调整的法学硕士的开放性，评估其透明度、数据和模型可用性。
开放研究员	OpenResearcher 包含各种 RAG 相关系统的基准测试结果作为排行榜。
打开阿拉伯语 LLM 排行榜	开放阿拉伯语法学硕士排行榜跟踪阿拉伯语法学硕士的进度并对表现进行排名。
打开中国LLM排行榜	开放中国法学硕士排行榜旨在跟踪、排名和评估开放中国法学硕士。
打开 CoT 排行榜	Open CoT Leaderboard 跟踪法学硕士生成有效的思维链推理轨迹的能力。
打开荷兰 LLM 评估排行榜	开放式荷兰语法学硕士评估排行榜跟踪荷兰语法学硕士的进度并对表现进行排名。
开放金融 LLM 排行榜	开放金融法学硕士排行榜旨在评估和比较金融法学硕士的表现。
打开 ITA LLM 排行榜	Open ITA LLM 排行榜跟踪意大利语 LLM 的进度并对表现进行排名。
打开 Ko-LLM 排行榜	开放式 Ko-LLM 排行榜追踪韩语法学硕士的进展并对他们的表现进行排名。
打开 LLM 排行榜	开放式法学硕士排行榜跟踪英语法学硕士的进度并对其表现进行排名。
开放医学法学硕士排行榜	开放式医学法学硕士排行榜旨在跟踪、排名和评估医学领域的开放式法学硕士。
打开 MLLM 排行榜	开放 MLLM 排行榜旨在跟踪、排名和评估 LLM 和聊天机器人。
打开 MOE LLM 排行榜	OPEN MOE LLM 排行榜评估各种专家混合 (MoE) 法学硕士的表现和效率。
开放多语言LLM评估排行榜	开放式多语言法学硕士评估排行榜跟踪进展并对多种语言法学硕士的表现进行排名。
Open PL LLM 排行榜	Open PL LLM 排行榜是一个用于评估各种波兰语 LLM 表现的平台。
打开葡萄牙语 LLM 排行榜	开放 PT LLM 排行榜旨在评估和比较葡萄牙语任务中的 LLM。
打开台湾LLM排行榜	开放台湾法学硕士排行榜展示了法学硕士在各种台湾普通话理解任务上的表现。
开放式法学硕士排行榜	Open-LLM-Leaderboard 通过从多项选择题 (MCQ) 过渡到开放式问题来评估 LLM 的语言理解和推理能力。
OPUS-MT 仪表板	OPUS-MT Dashboard 是一个跨多个语言对和指标跟踪和比较机器翻译模型的平台。
手术台	OR-Bench 是评估法学硕士过度拒绝增强安全性的基准。
帕尔斯长凳	ParsBench 提供了基于波斯语的 LLM 基准测试工具包。
波斯法学硕士排行榜	波斯语法学硕士排行榜提供了对波斯语法学硕士的可靠评估。
匹诺曹 ITA 排行榜	Pinocchio ITA 排行榜跟踪和评估意大利语法学硕士。
PL-MTEB	PL-MTEB（波兰语大规模文本嵌入基准）是评估 28 个 NLP 任务中波兰语文本嵌入的基准。
波兰医学排行榜	波兰医学排行榜评估波兰委员会认证考试的语言模型。
由英特尔提供支持的 LLM 排行榜	由英特尔提供支持的 LLM 排行榜对已在英特尔硬件上进行预训练或微调的 LLM 进行评估、评分和排名。
公共医学质量保证	PubMedQA 是评估生物医学研究问答的基准。
提示台	PromptBench 是评估法学硕士在对抗性提示上的稳健性的基准。
QAConv	QAConv 是使用复杂、特定领域和异步对话作为知识源的问答基准。
质量	QuALITY 是评估长上下文多项选择题回答的基准。
兔子	RABBITS 是通过评估法学硕士对同义词（特别是品牌和通用药物名称）的处理来评估其稳健性的基准。
乐田	Rakuda 是评估法学硕士的基准，根据他们回答一系列有关日语主题的开放式问题的程度。
红队竞技场	RedTeam Arena 是一个针对法学硕士的红队平台。
红队抵抗基准	红队阻力基准是评估法学硕士针对红队提示的稳健性的基准。
休息-MCTS*	ReST-MCTS* 是一种强化自训练方法，它使用树搜索和过程奖励推理来收集高质量的推理轨迹，用于训练策略和奖励模型，而无需手动步骤注释。
评论家竞技场	审稿人竞技场是审稿人竞技场的所在地，各个法学硕士根据他们在审阅学术论文时的表现进行竞争。
角色评估	roleeval是一种双语基准，用于评估LLMS角色知识的记忆，利用和推理能力。
RPBench排行榜	RPBENCH-AUTO是一种自动化管道，用于使用80个角色的LLM评估基于角色和80个场景的LLM，用于基于场景的角色扮演。
俄罗斯聊天机器人竞技场	Chatbot Arena主持了一个聊天机器人体育馆，其中各种LLM在用户满意度以俄罗斯竞争。
俄罗斯超级豪华	俄罗斯超级豪华是俄罗斯语言模型的基准，专注于逻辑，常识和推理任务。
R-Gudge	R-Judge是评估LLM在判断和确定给定代理相互作用记录的安全风险方面熟练程度的基准。
安全提示	安全提示是评估中国LLM的安全性的基准。
安全基础	Safety Bench是评估LLM的安全性的基准。
沙拉板	沙拉板是评估LLMS安全性和安全性的基准。
斯堪的瓦尔	Scandeval是评估斯堪的纳维亚语言以及德语，荷兰语和英语的LLM的基准。
科学排行榜	科学排行榜是一个评估LLMS解决科学问题能力的平台。
Sciglm	SCIGLM是一套科学语言模型，它们使用自我反射指导注释框架来通过生成和修改分步解决方案来增强科学推理，以提高无标记的问题。
Sciknoweval	Sciknoweval是根据LLM广泛研究，认真询问，深刻地思考，清晰辨别和顽强地练习的基础来评估LLM的基准。
卷轴	卷轴是评估LLM在长文本上的推理功能的基准。
Seaxam	Seexam是评估东南亚（海洋）语言LLM的基准。
密封LLM排行榜	SEAL LLM排行榜是一个专家驱动的LLMS私人评估平台。
海上	Seaeval是评估多语言LLM在理解和推理自然语言以及理解文化实践，细微差别和价值观方面的表现的基准。
海头	Sea Helm是评估LLM在英语和东南亚任务中的表现的基准，专注于聊天，跟随教学能力和语言能力。
塞瓦尔	Seceval是评估基础模型的网络安全知识的基准。
自我提出的排行榜	自我改进的排行榜（SIL）是一个动态平台，它不断更新测试数据集和排名，以提供开源LLM和聊天机器人的实时性能洞察力。
规格板	Spec Bench是评估各种情况下的投机解码方法的基准。
结构上	结构化是通过跨多个认知水平和关键概念进行结构化评估来评估LLM的基准。
次二次法学硕士排行榜	次级LLM排行榜以下构造（即RWKV＆Mamba）评估LLM。
超级基金会	Superbench是一个全面的任务和维度系统，可评估LLM的整体功能。
超级lue	SuperGlue是评估LLM在一组具有挑战性的语言理解任务上的性能的基准。
超级林	Superlim是评估LLM在瑞典语中的语言理解能力的基准。
斯瓦希里语LLM-LEADERBOARD	Swahili LLM-Leaderboard是共同的社区努力，旨在为LLMS创建一个中央排行榜。
S-评估	S-eval是一个全面的多维安全基准，其提示旨在评估各种风险维度的LLM安全性。
tableqaeval	TableQaeval是评估LLM在建模长表和理解能力（例如数值和多跳上推理）中的基准。
tat-dqa	TAT-DQA是评估与结合结构化信息和非结构化信息的文档的离散推理的LLM的基准。
tat-qa	TAT-QA是评估LLM在离散推理的基准上，而不是结合了表格内容和文本内容的文档。
泰国LLM排行榜	泰国LLM排行榜旨在跟踪和评估泰语任务中的LLM。
堆	该堆是评估LLM的世界知识和推理能力的基准。
豆腐	豆腐是评估LLM在现实情况下的学习成绩的基准。
Toloka LLM排行榜	Toloka LLM排行榜是根据真实用户提示和专家人类评估来评估LLM的基准。
工具台	Toolbench是专门用于工具学习的培训，服务和评估LLM的平台。
毒性排行榜	毒性排行榜评估LLM的毒性。
Trustbit LLM排行榜	Trustbit LLM排行榜是一个平台，可为使用LLMS构建和运输产品提供基准。
Trustllm	TrustLlm是评估LLM的可信度的基准。
图林维斯	TuringAdvice是评估语言模型为现实生活中，开放式情况生成有用建议的能力的基准。
Tutoreval	Tutoreval是一个提问的基准，它评估了LLM导师能够帮助用户了解科学教科书中的一章。
t-eval	T-eval是评估LLMS工具利用能力的基准。
UGI排行榜	UGI排行榜测量并比较了LLMS已知的未经审查和有争议的信息。
超级恶魔	Ultraeval是一个开源框架，用于在各个性能维度上透明和可重复的LLMS基准测试。
Vals AI	Vals AI是一个平台，评估了现实世界中法律任务的生成AI准确性和功效。
录像机	视觉常识推理（VCR）是认知级视觉理解的基准，要求模型回答视觉问题并为其答案提供理由。
vidore	Vidore是评估其在页面级别与相关文档匹配的能力的检索模型的基准。
VLLMS排行榜	VLLMS排行榜旨在跟踪，排名和评估开放的LLM和聊天机器人。
vmlu	VMLU是评估越南基础模型的总体能力的基准。
野人	Wildbench是评估与类似于现实世界应用程序的挑战任务的语言模型的基准。
协治	Xiezhi是LLM的整体领域知识评估的基准。
Yanolja竞技场	Yanolja Arena主持了一个模型竞技场，以评估LLMS在总结和翻译文本中的功能。
另一个LLM排行榜	另一个LLM排行榜是一个用于跟踪，排名和评估开放LLM和聊天机器人的平台。
凝结物	Zebralogic是一种基准测试，使用逻辑网格难题评估LLMS的逻辑推理，这是一种约束满意度问题（CSP）。
零	ZeroSameVal是使用具有明显获胜条件的多人游戏模拟的LLMS的竞争评估框架。

图像

姓名	描述
抽象图像	抽象图像是评估多模式LLM（MLLM）在理解和视觉上的抽象图像（例如地图，图表和布局）中的基准。
aesbench	Aesbench是评估图像美学感知的MLLM的基准。
眨	眨眼是评估MLLM的核心视觉感知能力的基准。
眨眼码	BlinkCode是评估15个视觉语言模型（VLM）和9个任务的MLLM的基准，以衡量准确性和图像重建性能。
关心	CARES是评估Med-LVLM在信任，公平，安全，隐私和鲁棒性跨越16个医学图像方式和27个解剖区域的41K问答对的基准。
图表媒介	ChartMimic是使用图表和文本说明评估大型多模型的视觉代码生成功能的基准。
charxiv	CharXiv是评估图表了解MLLM的功能的基准。
上下文	上下文是评估上下文敏感文本丰富的视觉推理任务的MLLM的基准。
Core-MM	Core-MM是评估MLLM的开放式视觉询问（VQA）功能的基准。
Dreambench ++	Dreambench ++是一种由人吻合的基准测试，该基准是由个性化图像生成的多模型自动化的。
Egoplan板凳	Egoplan Bench是评估MLLM在现实世界中以自我为中心方案的计划能力的基准。
小故障	Glitchbench是在检测视频游戏故障的背景下评估MLLM的推理能力的基准。
HallusionBench	HallusionBench是评估MLLM的图像封闭推理功能的基准。
Infimm-eval	Infimm-eval是评估MLLM的开放式VQA功能的基准。
LRVSF排行榜	LRVSF排行榜是一个平台，可以评估时尚图像相似性搜索的LLM。
LVLM排行榜	LVLM排行榜是一个评估MLLM的视觉推理功能的平台。
M3COT	M3COT是多域多域多模式链MLLM的基准。
纪念品	纪念品是评估MLLM在图像序列上的推理能力的基准。
MJ板凳	MJ Bench是评估多模式法官的基准，以在四个关键角度提供图像生成模型的反馈：对齐，安全性，图像质量和偏见。
mllm-as-a-a-a-a-a-a gudge	MLLM-AS-A-Gudge是一个基准，具有人类注释，可以评估MLLM在评分，对比较和跨多模式域的批次排名任务中的判断能力。
MLLM板凳	MLLM基础是评估MLVM的视觉推理功能的基准。
MMBench 排行榜	MMBENCH排行榜是评估MLLM的视觉推理功能的平台。
微机电系统	MME是评估MLLM的视觉推理功能的基准。
MME-Realworld	MME-Realworld是一个大规模的高分辨率基准，在43个任务中具有29,429个人类通知的QA对。
mmiu	MMIU（最终的多图像理解）是评估7个多图像关系，52个任务，77K图像和11K策划的多项选择问题的基准。
MMMU	MMMU是评估多模型在要求大学级学科知识和各个学科的专家级推理的任务上的性能的基准。
MMR	MMR是通过评估其处理主要问题的能力，而不仅仅是回答的准确性来评估MLLM在视觉理解中鲁棒性的基准。
mmsearch	MMSEarch是评估LMM的多模式搜索性能的基准。
MM星	MMSTAR是评估MLLM的多模式能力的基准。
MMT板凳	MMT基础是评估需要专业知识以及故意视觉识别，本地化，推理和计划的各种多模式任务的MLLM的基准。
MM-NIAH	MM-NIAH（多模式干草堆中的针头）是评估MLLM通过检索，计数和推理任务涉及文本和图像数据的长多模式文档的能力的基准。
MTV质量保证	MTVQA是评估MLLM的多语言视觉文本理解基准。
多模式幻觉排行榜	多模式幻觉排行榜比较了基于各种任务中幻觉水平的MLLM。
多基准测试	多基准测试是评估MLLM的基准，以了解复杂的表和图像，以及长篇小说的推理。
多野马	MultiTrust是评估MLLM在五个主要方面的信任度的基准：真实性，安全性，稳健性，公平和隐私。
nphardeval4v	Nphardeval4v是通过计算复杂性类别的镜头评估MLLM的推理能力的基准。
提供者排行榜	LLM API提供商排行榜是一个平台，可以比较跨性能密钥指标的API提供商性能的LLM端点。
OCRBench	Ocrbench是评估多模型模型的OCR功能的基准。
PCA板凳	PCA基础是评估多模型模型的具体决策能力的基准。
Q 台	Q基础是评估MLLM的视觉推理功能的基准。
奖励台	奖励基金是评估奖励模型的功能和安全性的基准。
科学质量保证	ScienceQA是一种基准，用于评估在回答科学问题的背景下，AI系统的多跳推理能力和解释性。
Scigraphqa	ScigraphQA是评估科学图询问的MLLM的基准。
种子板	种子基础是评估多模型的文本和图像生成的基准。
urial	URIAL是评估语言模型对齐能力的基准，而无需引入微调（学习率，数据等）的因素，这很难控制公平比较。
UPD排行榜	UPD排行榜是一个平台，可以在无法解决的问题检测中评估MLLM的可信度。
Vibe-eval	Vibe-eval是评估有挑战性案件的MLLM的基准。
视频汉卢比	VideoHallucer是检测MLLMS幻觉的基准。
参观替补	Visit-Bench是评估MLLM的指导跟踪功能的基准，用于现实世界中。
Waymo打开数据集挑战	Waymo Open DataSet挑战具有多种自动驾驶数据集来评估ML模型。
哎呀！	哎呀！是评估MLLM的视觉常识性推理能力的基准。
野外板凳	Wildvision Bench是评估人类偏好中VLM的基准。
野外竞技场	Wildvision Arena主持了聊天机器人竞技场，各种MLLM在视觉理解中的表现竞争。

代码

姓名	描述
Aider LLM 排行榜	Aider LLM排行榜评估了LLM遵循系统提示编辑代码的能力。
应用世界	AppWorld是一个高保真的执行环境，可通过457个API运行9日的应用程序，居住在模拟世界中的大约100人的数字活动。
伯克利函数调用排行榜	伯克利功能呼叫排行榜评估了LLM准确调用功能（也称为工具）的能力。
大代码平台	BigCodeBench是代码生成的基准，具有实用和具有挑战性的编程任务。
大型代码模型排行榜	大型代码模型排行榜是一个平台，可以跟踪和评估LLMS在与代码相关的任务上的性能。
鸟	鸟是评估文本到SQL解析系统性能的基准。
书籍SQL	BooksQL是评估各个行业的金融和会计领域中文本到SQL系统的基准，并使用27个业务的100万笔交易数据集评估。
Canaicode排行榜	CanaIcode排行榜是一个评估LLMS代码生成功能的平台。
classeval	Classeval是评估类级代码生成的LLM的基准。
codeapex	Codeapex是通过多项选择问题和C ++算法问题的代码生成来评估LLMS编程理解的基准。
codescope	CODESCOPE是评估43种语言和8个任务的LLM编码功能的基准，考虑到难度，效率和长度。
codetransocean	Codetransocean是评估各种编程语言（包括流行，利基市场和LLM翻译代码）的代码翻译的基准。
代码语言	代码通用语言是比较代码模型能够了解代码在源语言中实现的内容并在目标语言中翻译相同语义的能力的基准。
编码LLMS排行榜	编码LLMS排行榜是一个平台，可以在各种编程任务中评估和对LLMS进行排名。
commit-0	Commit-0是对重建54个核心Python库的摘要AI编码挑战，可确保通过具有重大测试覆盖，棉布/类型检查和基于云的分布式开发的单位测试。
Cruxeval	CruxeVal是评估LLMS的代码推理，理解和执行功能的基准。
蜘蛛侠	Cspider是评估系统在各种，复杂和跨域数据库中从中文自然语言中生成SQL查询能力的能力的基准。
网络上将	CyberseCeval是评估LLMS作为编码助手的网络安全性的基准。
DevOps AI助手开放排行榜	DevOps AI助手开放排行榜，排名和评估跨知识领域的DevOps AI助手。
DevOps-评估	DevOps-eval是评估DevOps/AIOPS字段中代码模型的基准。
Domaineval	Domaineval是多域代码生成的自动构建基准。
蜘蛛博士	Spider Dr.Spider是一个基准，可以使用不同的扰动测试集评估文本到SQL模型的鲁棒性。
Effibench	Effibench是评估LLM在代码生成中效率的基准。
评估加号	评估Plus是评估LLM的代码生成性能的基准。
EVOCODEBENCH	EvoCodeBench是一种进化代码生成的基准，与现实世界代码存储库对齐。
evoeval	EVOEVAL是评估LLM的编码能力的基准，该基准是通过将现有基准发展成不同目标域而创建的。
Infibench	Infibench是评估代码模型的基准，以回答自由形式现实世界中与代码相关的问题。
交叉代码	交换是用执行反馈标准化和评估交互式编码的基准。
Julia LLM排行榜	Julia LLM排行榜是一个平台，可以比较代码模型在句法上正确正确的朱莉娅代码方面的能力，该代码具有结构化测试和自动化评估，以实现简单和协作的基准测试。
实时代码平台	LiveCodeBench是随着时间的推移评估与代码相关方案的代码模型的基准。
长代码竞技场	长代码竞技场是一套基准套件，用于具有较大上下文的代码相关任务，直到整个代码存储库。
McEval	MCEVAL是一种大量的多语言代码评估基准，涵盖40种语言（总计44个样本），包括多语言代码生成，多语言代码说明和多语言代码完成任务。
记忆或生成大型代码模型排行榜	记忆或生成大型代码模型排行榜轨道并比较代码生成模型的性能。
多湿床台	Multi-SWE基础台是为代码代理解决基准的多语言GitHub问题。
天然库德台	NatoseCodeBench是反映实际编码任务中复杂性和各种情况的基准。
Nexus功能呼叫排行榜	Nexus函数呼叫排行榜是一个平台，用于评估执行功能调用和API使用的代码模型。
NL2SQL360	NL2SQL360是一个全面的评估框架，用于在各种应用程序方案中比较和优化NL2SQL方法。
太平洋经济合作委员会	PECC是一个基准，它通过要求模型理解和从基于叙事的描述中提取问题要求以产生句法准确的解决方案来评估代码生成。
PROLLM基准	PROLLM基准是一种实用可靠的LLM基准，旨在跨多个行业和编程语言的现实世界业务案例。
Pybench	Pybench是一个基准测试，评估了现实世界中的编码任务的LLM，包括图表分析，文本分析，图像/音频编辑，复杂的数学和软件/网站开发。
种族	种族是评估LLM生成正确代码并满足现实世界发展方案要求的代码的能力的基准。
repoqa	RepoQA是评估LLMS的长篇小说代码理解能力的基准。
Scicode	Scicode是一种基准，旨在评估语言模型，以生成代码来解决现实的科学研究问题。
SolidityBench	SolidityBench是评估和评估LLM在生成和审计智能合约的能力的基准。
蜘蛛	蜘蛛是评估跨域数据库的自然语言界面性能的基准。
StableToolbench	StableToolBench是评估工具学习的基准，旨在提供稳定和现实的均衡结合。
SWE-长凳	SWE-Bench是评估从GitHub收集的现实世界软件问题的LLM的基准。
WebApp1k	WebApp1k是评估其开发现实世界Web应用程序能力的LLM的基准。
网络开发竞技场	WebDev Arena主持了一个聊天机器人体育馆，各种LLM在网站开发中竞争。
百搭	Wilds是野外分布变化的基准，涵盖了各种数据方式和应用，从肿瘤识别到野生动植物监测再到贫困地图。

视频

姓名	描述
计时台	计时基台是评估视频模型能够使用自由格式文本控制的物理，生物学和化学领域的延时视频的能力。
Dream-1k	Dream-1K是评估视频描述在1,000个不同视频片段上的性能的基准，其中包含电影，动画，股票视频，YouTube和Tiktok风格的简短视频中的丰富事件，动作和动作。
长视频台	LongVideObench是评估视频模型回答引用的推理问题的功能的基准，这些推理问题取决于长框架输入，并且无法通过单个框架或一些稀疏的框架进行良好的认可。
LVBench	LVBench是评估需要扩展内存和理解能力的长期视频理解任务的多模型模型的基准。
MLVU	MLVU是评估多任务长视频理解中视频模型的基准。
mmtom-qa	MMTOM-QA是评估机器心理理论（TOM）的多模式基准，即了解人们的思维能力。
MVBench	MVBench是评估动态视频任务中视频模型的时间理解功能的基准。
OpenVLM视频排行榜	OpenVLM视频排行榜是一个平台，展示了使用VLMevalkit框架在视频理解基准测试中的30种不同VLM的评估结果。
温度指南针	tempcompass是一种基准，可以使用410个视频和7,540个任务说明评估视频LLMS的时间感知，并在11个时间方面和4种任务类型中进行。
vbench	VBENCH是评估视频模型视频生成功能的基准。
Videoniah	Videoniah是评估视频模型的细粒度理解和时空建模功能的基准。
录像	录像是评估生成的视频，以遵守现实世界材料互动中的物理常识。
VideSoscore	VideSoscore是评估五个关键维度的文本对视频生成模型的基准。
Videovista	Videovista是一个基准，其中有14个类别的3,400个视频中的25,000个问题，涵盖了19个理解和8个推理任务。
视频台	视频基础是评估视频的理解，先验知识融合和基于视频的视频模型决策能力的基准。
视频MME	Video-MME是评估视频模型的视频分析功能的基准。

数学

姓名	描述
亚伯	亚伯是评估LLM的数学功能的平台。
数学台	Mathbench是LLMS的多层次难度数学评估基准。
数学	Matheval是评估LLM的数学能力的基准。
Mathusereval	Mathusereval是一个基准，其中包含大学考试问题和与经验丰富的注释者的模拟对话中得出的与数学相关的查询。
数学诗篇	Mathverse是评估视觉模型在数学问题中使用视觉信息解释和推理时评估视觉模型的基准。
数学维斯塔	Mathvista是评估视觉上下文中数学推理的基准。
Math-V	Math-Vision（Math-V）是来自竞赛中3,040个视觉上下文化数学问题的基准，涵盖了16个学科和5个难度水平，以评估LMMS的数学推理。
打开多语言推理排行榜	打开多语言推理排行榜的轨道轨道并将LLM在多语言数学推理基准测试中的推理性能进行排名。
putnambench	Putnambench是评估Putnam竞赛中LLM的正式数学推理能力的基准。
Scibench	Scibench是评估LLMS解决复杂科学问题的推理能力的基准。
TABMWP	TABMWP是评估涉及文本和表格数据的数学推理任务中LLM的基准。
我们在做	We-Math是评估LLM的类似人类数学推理能力的基准，其解决方案的原则超出了端到端的性能。

代理人

姓名	描述
代理商	AgentBench是评估不同环境各种范围的语言模型的基准。
代理工作室	AgentStudio是一种集成解决方案，具有深入的基准套件，现实环境和全面的工具包。
角色	farneval是使用多转对对话和特征曲线评估角色扮演对话剂（RPCA）的基准，其指标涵盖了四个维度。
大多伦多地区	GTA是评估现实情况下基于LLM的代理的工具使用能力的基准。
leetcode-hard健身房	LeetCode-Hard Gym是LeetCode提交服务器的RL环境接口，用于评估CodeGen代理。
LLM罗马竞技排行榜	LLM Colosseum排行榜是一个通过在Street Fighter 3中进行战斗来评估LLM的平台。
魔法	魔术是衡量多代理系统中LLM的认知，适应性，合理性和协作能力的基准。
OLAS预测基准	OLAS预测基准是评估代理商的历史和未来事件预测的基准。
TravelPlanner	TravelPlanner是评估LLM代理在多个限制内的工具使用和复杂计划中的基准。
VAB	VisualAgentBench（VAB）是评估和开发LMM作为视觉基础代理的基准，该基础代理构成了5种不同的代表性视觉代理任务的5种不同环境。
视觉网络竞技场	VisualWebarena是评估多模式Web代理在现实视觉接地任务上的性能的基准。
Webagent排行榜	Webagent排行榜在Web导航任务上跟踪并评估LLM，VLM和代理。
Webarena	Webarena是一个独立的，可自主的网络环境，可评估自主代理。
γ板	γ基础是使用八种经典游戏理论方案和动态评分方案在多代理环境中评估LLMS游戏能力的框架。
τ板	τ基础是一个基准测试，可以模拟语言模型用户与配备有域特异性API工具和策略指南的语言代理之间的动态对话。

声音的

姓名	描述
空气凳	空中台阶是评估音频模型了解各种各样的音频信号（包括人类言语，自然声音和音乐）的能力的基准，以及以文本格式与人类互动的能力。
有影响力	AudioBench是通用指导跟随音频模型的基准。
打开 ASR 排行榜	Open ASR排行榜为跟踪，排名和评估自动语音识别（ASR）模型提供了一个平台。
波兰ASR排行榜	波兰ASR排行榜旨在全面概述ASR/STT系统用于波兰的性能。
三文鱼	鲑鱼是一个评估套件，该套件可根据一致性，背景噪音，情感，扬声器身份和房间冲动响应对语音语言模型进行基准测试。
TTS竞技场	TTS-Arena主持了文本到语音（TTS）竞技场，其中各种TTS模型根据其发作的性能而竞争。
耳语排行榜	Whisper排行榜是一个平台跟踪和比较各种数据集上音频模型的语音识别性能。

3D

姓名	描述
3D竞技场	3D竞技场主持了3D代竞技场，其中各种3D生成模型根据其生成3D模型的性能而竞争。
3D-Pope	3D-Pope是评估3D生成模型中对象幻觉的基准。
3dgen竞技场	3DGen Arena主持了3D代竞技场，其中各种3D生成模型根据其生成3D模型的性能而竞争。
国际收支平衡表	BOP是从单个RGB-D输入图像对刚性对象进行6D姿势估算的基准。
gpteval3d	GPTEVAL3D是通过多视图图像作为输入来评估MLLMS的3D内容理解的Capabiltiies的基准。

多式联运

姓名	描述
GenAI竞技场	Genai Arena主持了视觉一代竞技场，各种视觉模型在图像生成，图像版和视频生成中的性能竞争。
标签框排行榜	Labelbox排行榜使用其数据工厂评估生成AI模型的性能：平台，科学过程和专家人类。
巨型长凳	Mega-Bench是多式联运评估的基准，该基准具有跨8种应用程序类型，7种输入格式，6种输出格式和10个多模式技能的各种任务，涵盖了单片图像，多图像和视频任务。