上海人工智能实验室司南OpenCompass团队与魔搭ModelScope平台合作推出的CompassArena大模型评测平台近日进行了重大升级。此次升级旨在提升用户体验,提供更科学、全面的模型评估。通过收集大量用户数据并不断优化,CompassArena新增了Judge Copilot功能,改进了榜单算法,并纳入了20多个全新模型,涵盖国内外商业模型和开源模型,为用户提供更丰富的选择和更精准的模型排名。
Judge Copilot功能利用强大的评价模型Compass-Judger-1-32B-Instruct,为用户提供全方位对比分析对话模型表现的能力,从多维度评价、实时对比到智能决策辅助,提升评测效率和准确性。同时,升级后的榜单算法通过改进Bradley-Terry统计算法并引入控制变量,有效降低了混淆因素的影响,使模型排名更科学、精准。平台还积极收集用户反馈,不断提升Judge模型的综合能力和对齐效果。
CompassArena高度重视Judge模型在实际应用中的表现,并积极收集用户反馈以进一步提升Judge模型的综合能力和对齐效果。用户可以通过点击“赞”和“踩”按钮来表达他们对Judge模型的评价。通过拟合包含控制变量的Bradley-Terry统计模型,CompassArena能够估计众多外在因素的影响程度,具体影响程度可以通过几率比的形式表达。
此次升级,CompassArena迎来了包括360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828等国内商业模型,以及claude-3.5-sonnet-20241022、gemini-exp-1121等国外商业模型和一系列开源模型的加入。新增模型所属机构包括360、DeepSeek、豆包等,为用户提供更丰富的对战选择。
体验地址:https://www.modelscope.cn/studios/opencompass/CompassArena
此次CompassArena的升级,不仅提升了模型评估的科学性和准确性,也为用户提供了更丰富的模型选择和更便捷的使用体验,标志着大模型评测平台迈向了一个新的阶段。 欢迎访问体验地址,参与模型评估,共同推动大模型技术发展。