大模型评测平台CompassArena升级推出全新 Judge Copilot 功能

作者：Eve Cole 更新时间：2024-12-24 19:00:01

上海人工智能实验室司南OpenCompass团队与魔搭ModelScope平台合作推出的CompassArena大模型评测平台近日进行了重大升级。此次升级旨在提升用户体验，提供更科学、全面的模型评估。通过收集大量用户数据并不断优化，CompassArena新增了Judge Copilot功能，改进了榜单算法，并纳入了20多个全新模型，涵盖国内外商业模型和开源模型，为用户提供更丰富的选择和更精准的模型排名。

Judge Copilot功能利用强大的评价模型Compass-Judger-1-32B-Instruct，为用户提供全方位对比分析对话模型表现的能力，从多维度评价、实时对比到智能决策辅助，提升评测效率和准确性。同时，升级后的榜单算法通过改进Bradley-Terry统计算法并引入控制变量，有效降低了混淆因素的影响，使模型排名更科学、精准。平台还积极收集用户反馈，不断提升Judge模型的综合能力和对齐效果。

微信截图_20241219174613.png

CompassArena高度重视Judge模型在实际应用中的表现，并积极收集用户反馈以进一步提升Judge模型的综合能力和对齐效果。用户可以通过点击“赞”和“踩”按钮来表达他们对Judge模型的评价。通过拟合包含控制变量的Bradley-Terry统计模型，CompassArena能够估计众多外在因素的影响程度，具体影响程度可以通过几率比的形式表达。

此次升级，CompassArena迎来了包括360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828等国内商业模型，以及claude-3.5-sonnet-20241022、gemini-exp-1121等国外商业模型和一系列开源模型的加入。新增模型所属机构包括360、DeepSeek、豆包等，为用户提供更丰富的对战选择。

体验地址：https://www.modelscope.cn/studios/opencompass/CompassArena

此次CompassArena的升级，不仅提升了模型评估的科学性和准确性，也为用户提供了更丰富的模型选择和更便捷的使用体验，标志着大模型评测平台迈向了一个新的阶段。欢迎访问体验地址，参与模型评估，共同推动大模型技术发展。

大模型评测平台CompassArena升级 推出全新 Judge Copilot 功能

大模型评测平台CompassArena升级推出全新 Judge Copilot 功能