大模型評測平台CompassArena升級推出全新Judge Copilot 功能

作者：Eve Cole 更新時間：2024-12-24 19:00:01

上海人工智慧實驗室司南OpenCompass團隊與魔搭ModelScope平台合作推出的CompassArena大模型評測平台近日進行了重大升級。此次升級旨在提升使用者體驗，提供更科學、全面的模型評估。透過收集大量用戶資料並不斷優化，CompassArena新增了Judge Copilot功能，改進了榜單演算法，並納入了20多個全新模型，涵蓋國內外商業模型和開源模型，為用戶提供更豐富的選擇和更精準的模型排名。

Judge Copilot功能利用強大的評價模型Compass-Judger-1-32B-Instruct，為使用者提供全方位對比分析對話模型表現的能力，從多維度評價、即時對比到智慧決策輔助，提升評測效率和準確性。同時，升級後的榜單演算法透過改進Bradley-Terry統計演算法並引入控制變量，有效降低了混淆因素的影響，使模型排名更科學、精準。平台也積極收集使用者回饋，不斷提升Judge模型的綜合能力和對齊效果。

微信截图_20241219174613.png

CompassArena高度重視Judge模型在實際應用中的表現，並積極收集使用者回饋以進一步提升Judge模型的綜合能力和對齊效果。使用者可以透過點擊「讚」和「踩」按鈕來表達他們對Judge模型的評價。透過擬合包含控制變數的Bradley-Terry統計模型，CompassArena能夠估計眾多外在因素的影響程度，具體影響程度可以透過幾率比的形式來表達。

此次升級，CompassArena迎來了包括360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828等國內商業模型，以及claude-3.5-sonnet-20241022、gemini-exp-1121等國外商業模式和一系列開源模式的加入。新增模型所屬機構包括360、DeepSeek、豆包等，為使用者提供更豐富的對戰選擇。

體驗網址：https://www.modelscope.cn/studios/opencompass/CompassArena

這次CompassArena的升級，不僅提升了模型評估的科學性和準確性，也為使用者提供了更豐富的模型選擇和更便利的使用體驗，標誌著大模型評測平台邁向了一個新的階段。歡迎造訪體驗地址，參與模型評估，共同推動大模型技術發展。