ACLUE | ACLUE是古汉语理解能力的评价基准。 |
非洲语言法学硕士评估排行榜 | 非洲语言法学硕士评估排行榜跟踪非洲语言法学硕士的进展并对表现进行排名。 |
代理板 | AgentBoard 是多轮 LLM 代理的基准,并辅以分析评估板,用于超出最终成功率的详细模型评估。 |
AGIE值 | AGIEval 是一个以人为中心的基准,用于评估基础模型在与人类认知和解决问题相关的任务中的一般能力。 |
艾拉排行榜 | Aiera Leaderboard 评估法学硕士在金融情报任务上的表现,包括演讲者分配、演讲者变更识别、抽象摘要、基于计算的问答和金融情绪标记。 |
空气凳 | AIR-Bench是评估语言模型异构信息检索能力的基准。 |
AI能源分数排行榜 | AI能源分数排行榜跟踪并比较不同模型的能源效率。 |
人工智能基准 | ai-benchmarks 包含一些流行人工智能服务响应延迟的评估结果。 |
对齐工作台 | AlignBench是一个评估法学硕士中文一致性的多维度基准。 |
羊驼毛评估 | AlpacaEval 是一款专为遵循指令的 LLM 设计的自动评估器。 |
非政府组织 | ANGO是一个面向代的中文语言模型评估基准。 |
阿拉伯语分词器排行榜 | 阿拉伯语分词器排行榜比较了法学硕士解析不同方言和形式的阿拉伯语的效率。 |
Arena-硬自动 | Arena-Hard-Auto 是指令调整 LLM 的基准。 |
赛车 | AutoRace专注于使用度量AutoRace(自动推理链评估)对LLM推理链进行直接评估。 |
汽车竞技场 | Auto Arena 是一个基准测试,各种语言模型代理通过对战来评估其性能。 |
自动J | Auto-J 托管成对响应比较和批评生成任务的评估结果。 |
巴比龙 | BABILong 是评估语言模型在处理具有分布式事实的任意长文档时的性能的基准。 |
乙肝病毒 | BBL (BIG-bench Lite) 是 BIG-bench 24 个不同 JSON 任务的一个小子集。它旨在提供模型性能的规范衡量标准,同时评估成本比 BIG-bench 中全套 200 多个编程和 JSON 任务便宜得多。 |
诚实 | BeHonest 是法学硕士评估诚实的基准,即了解知识边界(自我知识)、避免欺骗(非欺骗性)和回答的一致性(一致性)。 |
本凳 | BenBench是一个基准,用于评估LLM在测试集的基准训练集上进行逐字训练的程度,以增强能力。 |
本·捷克马克 | BenCzechMark (BCM) 是针对法学硕士的多任务和多度量捷克语基准,具有利用统计显着性理论的独特评分系统。 |
BiGGen 工作台 | BiGGen-Bench 是一个综合基准,用于评估法学硕士在各种任务中的表现。 |
聊天机器人 | BotChat是通过代理任务评估LLM多轮聊天能力的基准。 |
判例法质量保证 | CaselawQA 是一个基准,包含来自最高法院和松格上诉法院法律数据库的法律分类任务。 |
氟利昂 | CFLUE是评价LLM对中国金融领域理解和处理能力的基准。 |
Ch3Ef | Ch3Ef 是一个基准,基于 hhh 原则,使用跨 12 个领域和 46 个任务的 1002 个人工注释样本来评估与人类期望的一致性。 |
思想链中心 | Chain-of-Thought Hub是评估LLM推理能力的基准。 |
聊天机器人竞技场 | 聊天机器人竞技场主办了一个聊天机器人竞技场,各种法学硕士根据用户满意度进行竞争。 |
化学台 | ChemBench是评估法学硕士化学知识和推理能力的基准。 |
中文简单QA | Chinese SimpleQA 是一个评估语言模型回答简短问题的事实能力的中国基准。 |
CLEM 排行榜 | CLEM 是一个框架,旨在对作为对话代理的聊天优化的法学硕士进行系统评估。 |
克莱瓦 | CLEVA 是使用来自 84 个不同数据集和 9 个指标的 370K 中文查询来评估 31 项任务的法学硕士的基准。 |
中国大模特排行榜 | 中国大模型排行榜是一个评价中国法学硕士成绩的平台。 |
中巴 | CMB是中国多层次医疗标杆。 |
CMLU | CMMLU是评估中国文化背景下法学硕士在各学科表现的基准。 |
坐标测量机 | CMMMU 是评估 LMM 在中国背景下需要大学水平学科知识和深思熟虑推理的任务的基准。 |
通用发电公司 | CommonGen 是一个评估生成常识推理的基准,通过测试机器使用给定的一组常见概念组成连贯句子的能力。 |
混合料 | CompMix 是异构问答的基准。 |
压缩率排行榜 | 压缩率排行榜旨在评估不同语言的分词器性能。 |
压缩排行榜 | 压缩排行榜是一个评估法学硕士压缩性能的平台。 |
复制台 | CopyBench是评估语言模型的复制行为和效用以及降低版权风险方法有效性的基准。 |
钴评估 | CoTaEval 是评估法学硕士版权删除方法的可行性和副作用的基准。 |
转化率 | ConvRe是评估法学硕士理解逆关系能力的基准。 |
批评者评估 | CriticEval 是评估法学硕士做出批评回应能力的基准。 |
CS-工作台 | CS-Bench 是一个双语基准测试,旨在评估法学硕士在 26 个计算机科学子领域的表现,重点关注知识和推理。 |
可爱的 | CUTE 是测试法学硕士拼字法知识的基准。 |
网络度量 | CyberMetric是评估法学硕士网络安全知识的基准。 |
捷克长凳 | CzechBench 是评估捷克语模型的基准。 |
C-评估 | C-Eval是针对法学硕士的中国评估套件。 |
去中心化竞技场排行榜 | Decentralized Arena 拥有一个去中心化和民主的平台,用于 LLM 评估、跨不同的、用户定义的维度(包括数学、逻辑和科学)的自动化和扩展评估。 |
解码信任 | DecodingTrust 是一个评估法学硕士可信度的平台。 |
领域LLM排行榜 | 领域LLM排行榜是一个评估特定领域LLM受欢迎程度的平台。 |
企业场景排行榜 | 企业场景排行榜跟踪和评估法学硕士在现实企业用例中的表现。 |
EQ 基准 | EQ-Bench 是评估法学硕士情商方面的基准。 |
欧洲法学硕士排行榜 | 欧洲法学硕士排行榜跟踪并比较欧洲语言法学硕士的表现。 |
评估GPT.ai | EvalGPT.ai 托管了一个聊天机器人竞技场,用于对法学硕士的表现进行比较和排名。 |
评估竞技场 | Eval Arena 通过示例级分析和成对比较来比较多个 LLM 评估基准的模型对,从而测量噪声水平、模型质量和基准质量。 |
事实排行榜 | 事实排行榜比较了法学硕士的事实能力。 |
扇出QA | FanOutQA 是一个高质量、多跳、多文档的基准测试,适用于法学硕士,使用英语维基百科作为其知识库。 |
快速评估 | FastEval 是一个工具包,用于在各种基准上快速评估指令跟踪和聊天语言模型,并提供快速推理和详细的性能见解。 |
有限元法 | FELM 是评估法学硕士事实性评估基准的元基准。 |
芬评估 | FinEval 是评估法学硕士金融领域知识的基准。 |
微调排行榜 | 微调排行榜是一个对使用开源数据集或框架微调的模型进行排名和展示的平台。 |
火焰 | Flames 是一个高度对抗性的中国基准,用于评估法学硕士在公平、安全、道德、合法性和数据保护方面的价值一致性。 |
跟随基准 | FollowBench是一个多级细粒度约束的基准测试,用于评估LLM的指令跟踪能力。 |
禁止问题数据集 | 禁止问题数据集是一个基准,包含 160 个违规类别的 160 个问题,以及相应的评估越狱方法的目标。 |
保险丝评论 | FuseReviews 旨在推进基础文本生成任务,包括长格式问答和摘要。 |
盖亚 | GAIA旨在测试AI助手应具备的基本能力。 |
嘉维 | GAVIE 是一个 GPT-4 辅助基准,用于通过对准确性和相关性进行评分来评估 LMM 中的幻觉,而不依赖于人类注释的基本事实。 |
GPT-深寻 | GPT-Fathom 是一个法学硕士评估套件,对 10 多个领先的法学硕士以及 OpenAI 的遗留模型进行了基准测试,涵盖 7 个能力类别的 20 多个策划基准,所有这些都在一致的设置下。 |
圣杯质量保证 | 强泛化问答 (GrailQA) 是 Freebase 上知识库 (KBQA) 问答的大规模、高质量基准,包含 64,331 个问题,并以不同语法(即 SPARQL、S 表达式)标注答案和相应的逻辑形式, ETC。)。 |
GT基准测试 | GTBench 是一个基准,用于通过棋盘游戏和纸牌游戏等博弈论任务来评估和排名法学硕士在竞争环境中的推理能力。 |
Guerra LLM 人工智能排行榜 | Guerra LLM AI 排行榜对 LLM 在质量、价格、性能、上下文窗口等方面的表现进行比较和排名。 |
幻觉排行榜 | 幻觉排行榜旨在跟踪、排名和评估法学硕士的幻觉。 |
HalluQA | HalluQA是评估中国法学硕士幻觉现象的基准。 |
希伯来语法学硕士排行榜 | 希伯来语法学硕士排行榜根据语言模型在希伯来语各种任务上的成功情况对语言模型进行跟踪和排名。 |
海拉斯瓦格 | HellaSwag 是评估法学硕士常识推理的基准。 |
休斯幻觉评估模型排行榜 | 休斯幻觉评估模型排行榜是一个评估语言模型在总结文档时引入幻觉的频率的平台。 |
冰岛LLM排行榜 | 冰岛法学硕士排行榜跟踪并比较冰岛语任务的模型。 |
IFE值 | IFEval 是评估法学硕士的指令跟随能力和可验证指令的基准。 |
伊尔-图尔 | IL-TUR 是评估单语言和多语言任务的语言模型的基准,重点是对印度法律文件的理解和推理。 |
印度法学硕士排行榜 | 印度法学硕士排行榜是跟踪和比较印度法学硕士表现的平台。 |
Indico 法学硕士排行榜 | Indico LLM Leaderboard 评估并比较不同提供商、数据集以及文本分类、关键信息提取和生成摘要等功能的各种语言模型的准确性。 |
指导评估 | InstructEval 是一个在法学硕士背景下评估指令选择方法的套件。 |
意大利法学硕士排行榜 | 意大利法学硕士排行榜跟踪并比较意大利语任务中的法学硕士。 |
越狱长凳 | JailbreakBench 是通过对抗性提示评估 LLM 漏洞的基准。 |
日本聊天机器人竞技场 | Japanese Chatbot Arena 举办聊天机器人竞技场,各种法学硕士根据日语表现进行竞争。 |
日语模型财务评估工具 | 日语模型财务评估工具是用于金融领域日语模型评估的工具。 |
日本法学硕士角色扮演基准 | 日本法学硕士角色扮演基准是评估日本法学硕士在角色扮演方面表现的基准。 |
法学硕士 | JMED-LLM(大型语言模型的日本医学评估数据集)是评估日语医学领域法学硕士的基准。 |
联合MMMU | JMMMU(日语 MMMU)是评估日语 LMM 性能的多模态基准。 |
正义评估 | JustEval 是一款功能强大的工具,专为法学硕士的细粒度评估而设计。 |
科拉 | KoLA是评估LLM世界知识的基准。 |
灯 | LaMP(Language Models Personalization)是评估语言模型个性化能力的基准。 |
语言模型委员会 | 语言模型委员会 (LMC) 是评估高度主观且通常缺乏多数人一致同意的任务的基准。 |
法律法庭 | LawBench是评估LLM法律能力的基准。 |
拉排行榜 | La Leaderboard 评估和跟踪西班牙、拉美和加勒比海地区法学硕士的记忆、推理和语言能力。 |
逻辑科尔 | LogicKor是评价韩国法学硕士多学科思维能力的标杆。 |
长ICL排行榜 | LongICL Leaderboard 是一个评估法学硕士长期情境学习评估的平台。 |
卢格勒 | LooGLE 是评估法学硕士长期上下文理解能力的基准。 |
左旋W | LAiW是评价中国法律语言理解和推理的基准。 |
LLM 基准套件 | LLM Benchmarker Suite是评估LLM综合能力的基准。 |
英语环境下的大语言模型评估 | 英语环境下的大型语言模型评估是一个在英语环境下评估法学硕士的平台。 |
中文环境下的大语言模型评估 | 中国语境下的大语言模型评估是一个在中国语境下评估法学硕士的平台。 |
天秤座 | LIBRA 是评估法学硕士理解和处理俄语长文本能力的基准。 |
LibrAI-Eval GenAI 排行榜 | LibrAI-Eval GenAI 排行榜重点关注法学硕士英语能力和安全性之间的平衡。 |
现场工作台 | LiveBench 是法学硕士的基准,可最大程度地减少测试集污染,并在各种定期更新的任务中实现客观、自动化的评估。 |
LLME值 | LLMEval 是评估与法学硕士开放领域对话质量的基准。 |
Llmeval-高考2024-数学 | Llmeval-Gaokao2024-Math 是评估法学硕士 2024 年高考中文数学题的基准。 |
法学硕士幻觉排行榜 | 幻觉排行榜根据一系列与幻觉相关的基准来评估法学硕士。 |
法学硕士性能 | LLMPerf 是一个使用负载和正确性测试来评估 LLM 性能的工具。 |
法学硕士疾病风险预测排行榜 | 法学硕士疾病风险预测排行榜是一个评估法学硕士疾病风险预测的平台。 |
法学硕士排行榜 | LLM 排行榜跟踪和评估 LLM 提供商,从而能够根据用户需求选择最佳的 API 和模型。 |
CRM 法学硕士排行榜 | CRM LLM Leaderboard 是一个评估 LLM 对商业应用的有效性的平台。 |
法学硕士天文台 | LLM Observatory 是一个基准,根据法学硕士在避免 LGBTIQ+ 取向、年龄、性别、政治、种族、宗教和仇外心理等类别的社会偏见方面的表现对法学硕士进行评估和排名。 |
LLM价格排行榜 | LLM 价格排行榜根据一百万个代币跟踪和比较 LLM 成本。 |
法学硕士排名 | LLM 排名根据提示和完成的标准化标记使用情况提供语言模型的实时比较,并经常更新。 |
LLM角色扮演排行榜 | LLM 角色扮演排行榜评估人类和人工智能在社交狼人游戏中的表现,以促进 NPC 的发展。 |
法学硕士安全排行榜 | LLM安全排行榜旨在为语言模型安全性提供统一的评估。 |
LLM用例排行榜 | LLM 用例排行榜跟踪和评估业务用例中的 LLM。 |
法学硕士-AggreFact | LLM-AggreFact 是一个事实检查基准,根据事实评估汇总最新的公开数据集。 |
LLM-排行榜 | LLM-Leaderboard 是社区共同努力为 LLM 创建一个中央排行榜。 |
LLM-Perf 排行榜 | LLM-Perf Leaderboard 旨在对具有不同硬件、后端和优化的 LLM 的性能进行基准测试。 |
LM考试QA | LMExamQA 是一个基准测试框架,其中语言模型充当审查员,以无参考、自动化的方式生成问题并评估回答,以实现全面、公平的评估。 |
长凳 | LongBench 是评估法学硕士长期上下文理解能力的基准。 |
龙 | Loong 是一个长上下文基准,用于评估法学硕士在金融、法律和学术场景中的多文档 QA 能力。 |
低位量化开放LLM排行榜 | 低位量化开放 LLM 排行榜跟踪并比较具有不同量化算法的量化 LLM。 |
左室评估 | LV-Eval 是一个长上下文基准测试,具有五个长度级别和先进技术,用于跨双语数据集的单跳和多跳 QA 任务准确评估法学硕士。 |
露西·埃瓦尔 | LucyEval 对法学硕士在不同中国背景下的表现进行了全面评估。 |
L-评估 | L-Eval 是一个长上下文语言模型 (LCLM) 评估基准,用于评估处理广泛上下文的性能。 |
M3KE | M3KE是一个大规模的多层次多学科知识评估基准,用于衡量中国法学硕士所获得的知识。 |
元批评 | MetaCritique 是一个法官,可以通过生成评论来评估人类撰写的或法学硕士生成的评论。 |
薄荷 | MINT 是评估法学硕士通过使用工具和利用自然语言反馈解决多轮交互任务的能力的基准。 |
海市蜃楼 | Mirage 是医学信息检索增强生成的基准,包含来自 5 个医学 QA 数据集的 7,663 个问题,并使用 MedRag 工具包通过 41 种配置进行了测试。 |
医学工作台 | MedBench是评估医学法学硕士知识掌握和推理能力的基准。 |
医疗台 | MedS-Bench 是一个医学基准,使用 39 个不同的数据集评估 11 个任务类别的法学硕士。 |
Meta Open LLM 排行榜 | Meta Open LLM 排行榜作为一个中心枢纽,用于将各种开放 LLM 排行榜的数据整合到一个用户友好的可视化页面中。 |
MIMIC 临床决策排行榜 | MIMIC 临床决策排行榜跟踪和评估法学硕士在腹部病理的实际临床决策中的情况。 |
混合评估 | MixEval 是通过战略性地混合现成基准来评估 LLM 的基准。 |
ML.ENERGY 排行榜 | ML.ENERGY Leaderboard 评估法学硕士的能源消耗。 |
医学硕士 | MMedBench 是评估法学硕士多语言理解能力的医学基准。 |
MMLU | MMLU 是评估法学硕士在各种自然语言理解任务中表现的基准。 |
MMLU 按任务排行榜 | MMLU 按任务排行榜提供了一个平台,用于评估和比较不同语言理解任务中的各种 ML 模型。 |
MMLU-专业版 | MMLU-Pro 是 MMLU 的更具挑战性的版本,用于评估法学硕士的推理能力。 |
ModelScope LLM 排行榜 | ModelScope LLM Leaderboard是一个客观、全面评估LLM的平台。 |
模型评估排行榜 | 模型评估排行榜使用 Mosaic Eval Gauntlet 框架根据文本生成模型在各种基准上的表现来跟踪和评估文本生成模型。 |
MSNP 排行榜 | MSNP Leaderboard 通过 Ollama 使用单节点设置跟踪和评估量化 GGUF 模型在各种 GPU 和 CPU 组合上的性能。 |
MSTEB | MSTEB 是衡量西班牙语文本嵌入模型性能的基准。 |
MTEB | MTEB 是一个大型基准测试,用于衡量文本嵌入模型在 112 种语言的各种嵌入任务上的性能。 |
MTEB竞技场 | MTEB Arena 托管一个模型竞技场,通过基于用户的查询和检索比较对嵌入模型进行动态、真实的评估。 |
MT-长凳-101 | MT-Bench-101 是用于在多轮对话中评估 LLM 的细粒度基准。 |
我的马来语LLM排行榜 | 我的马来语法学硕士排行榜旨在跟踪、排名和评估马来语任务的开放法学硕士。 |
诺查 | NoCha 是评估长上下文语言模型验证虚构书籍声明的能力的基准。 |
NPHard评估 | NPHardEval 是通过计算复杂性类别的角度评估法学硕士推理能力的基准。 |
Occiglot 欧洲法学硕士排行榜 | Occiglot 欧洲法学硕士排行榜对来自 Okapi 基准和 Belebele(法语、意大利语、德语、西班牙语和荷兰语)的四种主要语言的法学硕士进行了比较。 |
奥林匹克长凳 | OlympiadBench 是一个双语多模式科学基准测试,包含 8,476 个奥林匹克级别的数学和物理问题,并带有专家级的逐步推理注释。 |
奥林匹克竞技场 | OlympicArena 是评估法学硕士应对各种奥运会级别挑战的先进能力的基准。 |
奥巴布加 | Oobabooga 是使用 oobabooga Web UI 执行 LLM 可重复性能测试的基准。 |
开放评估 | OpenEval是一个评估中国LLM的平台。 |
OpenLLM 土耳其排行榜 | OpenLLM 土耳其语排行榜跟踪土耳其语 LLM 的进展并对他们的表现进行排名。 |
开放度排行榜 | 开放性排行榜跟踪和评估模型在权重、数据和许可证的开放访问方面的透明度,揭露不符合开放性标准的模型。 |
开放度排行榜 | 开放性排行榜是一个工具,用于跟踪指令调整的法学硕士的开放性,评估其透明度、数据和模型可用性。 |
开放研究员 | OpenResearcher 包含各种 RAG 相关系统的基准测试结果作为排行榜。 |
打开阿拉伯语 LLM 排行榜 | 开放阿拉伯语法学硕士排行榜跟踪阿拉伯语法学硕士的进度并对表现进行排名。 |
打开中国LLM排行榜 | 开放中国法学硕士排行榜旨在跟踪、排名和评估开放中国法学硕士。 |
打开 CoT 排行榜 | Open CoT Leaderboard 跟踪法学硕士生成有效的思维链推理轨迹的能力。 |
打开荷兰 LLM 评估排行榜 | 开放式荷兰语法学硕士评估排行榜跟踪荷兰语法学硕士的进度并对表现进行排名。 |
开放金融 LLM 排行榜 | 开放金融法学硕士排行榜旨在评估和比较金融法学硕士的表现。 |
打开 ITA LLM 排行榜 | Open ITA LLM 排行榜跟踪意大利语 LLM 的进度并对表现进行排名。 |
打开 Ko-LLM 排行榜 | 开放式 Ko-LLM 排行榜追踪韩语法学硕士的进展并对他们的表现进行排名。 |
打开 LLM 排行榜 | 开放式法学硕士排行榜跟踪英语法学硕士的进度并对其表现进行排名。 |
开放医学法学硕士排行榜 | 开放式医学法学硕士排行榜旨在跟踪、排名和评估医学领域的开放式法学硕士。 |
打开 MLLM 排行榜 | 开放 MLLM 排行榜旨在跟踪、排名和评估 LLM 和聊天机器人。 |
打开 MOE LLM 排行榜 | OPEN MOE LLM 排行榜评估各种专家混合 (MoE) 法学硕士的表现和效率。 |
开放多语言LLM评估排行榜 | 开放式多语言法学硕士评估排行榜跟踪进展并对多种语言法学硕士的表现进行排名。 |
Open PL LLM 排行榜 | Open PL LLM 排行榜是一个用于评估各种波兰语 LLM 表现的平台。 |
打开葡萄牙语 LLM 排行榜 | 开放 PT LLM 排行榜旨在评估和比较葡萄牙语任务中的 LLM。 |
打开台湾LLM排行榜 | 开放台湾法学硕士排行榜展示了法学硕士在各种台湾普通话理解任务上的表现。 |
开放式法学硕士排行榜 | Open-LLM-Leaderboard 通过从多项选择题 (MCQ) 过渡到开放式问题来评估 LLM 的语言理解和推理能力。 |
OPUS-MT 仪表板 | OPUS-MT Dashboard 是一个跨多个语言对和指标跟踪和比较机器翻译模型的平台。 |
手术台 | OR-Bench 是评估法学硕士过度拒绝增强安全性的基准。 |
帕尔斯长凳 | ParsBench 提供了基于波斯语的 LLM 基准测试工具包。 |
波斯法学硕士排行榜 | 波斯语法学硕士排行榜提供了对波斯语法学硕士的可靠评估。 |
匹诺曹 ITA 排行榜 | Pinocchio ITA 排行榜跟踪和评估意大利语法学硕士。 |
PL-MTEB | PL-MTEB(波兰语大规模文本嵌入基准)是评估 28 个 NLP 任务中波兰语文本嵌入的基准。 |
波兰医学排行榜 | 波兰医学排行榜评估波兰委员会认证考试的语言模型。 |
由英特尔提供支持的 LLM 排行榜 | 由英特尔提供支持的 LLM 排行榜对已在英特尔硬件上进行预训练或微调的 LLM 进行评估、评分和排名。 |
公共医学质量保证 | PubMedQA 是评估生物医学研究问答的基准。 |
提示台 | PromptBench 是评估法学硕士在对抗性提示上的稳健性的基准。 |
QAConv | QAConv 是使用复杂、特定领域和异步对话作为知识源的问答基准。 |
质量 | QuALITY 是评估长上下文多项选择题回答的基准。 |
兔子 | RABBITS 是通过评估法学硕士对同义词(特别是品牌和通用药物名称)的处理来评估其稳健性的基准。 |
乐田 | Rakuda 是评估法学硕士的基准,根据他们回答一系列有关日语主题的开放式问题的程度。 |
红队竞技场 | RedTeam Arena 是一个针对法学硕士的红队平台。 |
红队抵抗基准 | 红队阻力基准是评估法学硕士针对红队提示的稳健性的基准。 |
休息-MCTS* | ReST-MCTS* 是一种强化自训练方法,它使用树搜索和过程奖励推理来收集高质量的推理轨迹,用于训练策略和奖励模型,而无需手动步骤注释。 |
评论家竞技场 | 审稿人竞技场是审稿人竞技场的所在地,各个法学硕士根据他们在审阅学术论文时的表现进行竞争。 |
角色评估 | roleeval是一种双语基准,用于评估LLMS角色知识的记忆,利用和推理能力。 |
RPBench排行榜 | RPBENCH-AUTO是一种自动化管道,用于使用80个角色的LLM评估基于角色和80个场景的LLM,用于基于场景的角色扮演。 |
俄罗斯聊天机器人竞技场 | Chatbot Arena主持了一个聊天机器人体育馆,其中各种LLM在用户满意度以俄罗斯竞争。 |
俄罗斯超级豪华 | 俄罗斯超级豪华是俄罗斯语言模型的基准,专注于逻辑,常识和推理任务。 |
R-Gudge | R-Judge是评估LLM在判断和确定给定代理相互作用记录的安全风险方面熟练程度的基准。 |
安全提示 | 安全提示是评估中国LLM的安全性的基准。 |
安全基础 | Safety Bench是评估LLM的安全性的基准。 |
沙拉板 | 沙拉板是评估LLMS安全性和安全性的基准。 |
斯堪的瓦尔 | Scandeval是评估斯堪的纳维亚语言以及德语,荷兰语和英语的LLM的基准。 |
科学排行榜 | 科学排行榜是一个评估LLMS解决科学问题能力的平台。 |
Sciglm | SCIGLM是一套科学语言模型,它们使用自我反射指导注释框架来通过生成和修改分步解决方案来增强科学推理,以提高无标记的问题。 |
Sciknoweval | Sciknoweval是根据LLM广泛研究,认真询问,深刻地思考,清晰辨别和顽强地练习的基础来评估LLM的基准。 |
卷轴 | 卷轴是评估LLM在长文本上的推理功能的基准。 |
Seaxam | Seexam是评估东南亚(海洋)语言LLM的基准。 |
密封LLM排行榜 | SEAL LLM排行榜是一个专家驱动的LLMS私人评估平台。 |
海上 | Seaeval是评估多语言LLM在理解和推理自然语言以及理解文化实践,细微差别和价值观方面的表现的基准。 |
海头 | Sea Helm是评估LLM在英语和东南亚任务中的表现的基准,专注于聊天,跟随教学能力和语言能力。 |
塞瓦尔 | Seceval是评估基础模型的网络安全知识的基准。 |
自我提出的排行榜 | 自我改进的排行榜(SIL)是一个动态平台,它不断更新测试数据集和排名,以提供开源LLM和聊天机器人的实时性能洞察力。 |
规格板 | Spec Bench是评估各种情况下的投机解码方法的基准。 |
结构上 | 结构化是通过跨多个认知水平和关键概念进行结构化评估来评估LLM的基准。 |
次二次法学硕士排行榜 | 次级LLM排行榜以下构造(即RWKV&Mamba)评估LLM。 |
超级基金会 | Superbench是一个全面的任务和维度系统,可评估LLM的整体功能。 |
超级lue | SuperGlue是评估LLM在一组具有挑战性的语言理解任务上的性能的基准。 |
超级林 | Superlim是评估LLM在瑞典语中的语言理解能力的基准。 |
斯瓦希里语LLM-LEADERBOARD | Swahili LLM-Leaderboard是共同的社区努力,旨在为LLMS创建一个中央排行榜。 |
S-评估 | S-eval是一个全面的多维安全基准,其提示旨在评估各种风险维度的LLM安全性。 |
tableqaeval | TableQaeval是评估LLM在建模长表和理解能力(例如数值和多跳上推理)中的基准。 |
tat-dqa | TAT-DQA是评估与结合结构化信息和非结构化信息的文档的离散推理的LLM的基准。 |
tat-qa | TAT-QA是评估LLM在离散推理的基准上,而不是结合了表格内容和文本内容的文档。 |
泰国LLM排行榜 | 泰国LLM排行榜旨在跟踪和评估泰语任务中的LLM。 |
堆 | 该堆是评估LLM的世界知识和推理能力的基准。 |
豆腐 | 豆腐是评估LLM在现实情况下的学习成绩的基准。 |
Toloka LLM排行榜 | Toloka LLM排行榜是根据真实用户提示和专家人类评估来评估LLM的基准。 |
工具台 | Toolbench是专门用于工具学习的培训,服务和评估LLM的平台。 |
毒性排行榜 | 毒性排行榜评估LLM的毒性。 |
Trustbit LLM排行榜 | Trustbit LLM排行榜是一个平台,可为使用LLMS构建和运输产品提供基准。 |
Trustllm | TrustLlm是评估LLM的可信度的基准。 |
图林维斯 | TuringAdvice是评估语言模型为现实生活中,开放式情况生成有用建议的能力的基准。 |
Tutoreval | Tutoreval是一个提问的基准,它评估了LLM导师能够帮助用户了解科学教科书中的一章。 |
t-eval | T-eval是评估LLMS工具利用能力的基准。 |
UGI排行榜 | UGI排行榜测量并比较了LLMS已知的未经审查和有争议的信息。 |
超级恶魔 | Ultraeval是一个开源框架,用于在各个性能维度上透明和可重复的LLMS基准测试。 |
Vals AI | Vals AI是一个平台,评估了现实世界中法律任务的生成AI准确性和功效。 |
录像机 | 视觉常识推理(VCR)是认知级视觉理解的基准,要求模型回答视觉问题并为其答案提供理由。 |
vidore | Vidore是评估其在页面级别与相关文档匹配的能力的检索模型的基准。 |
VLLMS排行榜 | VLLMS排行榜旨在跟踪,排名和评估开放的LLM和聊天机器人。 |
vmlu | VMLU是评估越南基础模型的总体能力的基准。 |
野人 | Wildbench是评估与类似于现实世界应用程序的挑战任务的语言模型的基准。 |
协治 | Xiezhi是LLM的整体领域知识评估的基准。 |
Yanolja竞技场 | Yanolja Arena主持了一个模型竞技场,以评估LLMS在总结和翻译文本中的功能。 |
另一个LLM排行榜 | 另一个LLM排行榜是一个用于跟踪,排名和评估开放LLM和聊天机器人的平台。 |
凝结物 | Zebralogic是一种基准测试,使用逻辑网格难题评估LLMS的逻辑推理,这是一种约束满意度问题(CSP)。 |
零 | ZeroSameVal是使用具有明显获胜条件的多人游戏模拟的LLMS的竞争评估框架。 |