上海人工智慧實驗室司南OpenCompass團隊與魔搭ModelScope平台合作推出的CompassArena大模型評測平台近日進行了重大升級。此次升級旨在提升使用者體驗,提供更科學、全面的模型評估。透過收集大量用戶資料並不斷優化,CompassArena新增了Judge Copilot功能,改進了榜單演算法,並納入了20多個全新模型,涵蓋國內外商業模型和開源模型,為用戶提供更豐富的選擇和更精準的模型排名。
Judge Copilot功能利用強大的評價模型Compass-Judger-1-32B-Instruct,為使用者提供全方位對比分析對話模型表現的能力,從多維度評價、即時對比到智慧決策輔助,提升評測效率和準確性。同時,升級後的榜單演算法透過改進Bradley-Terry統計演算法並引入控制變量,有效降低了混淆因素的影響,使模型排名更科學、精準。平台也積極收集使用者回饋,不斷提升Judge模型的綜合能力和對齊效果。
CompassArena高度重視Judge模型在實際應用中的表現,並積極收集使用者回饋以進一步提升Judge模型的綜合能力和對齊效果。使用者可以透過點擊「讚」和「踩」按鈕來表達他們對Judge模型的評價。透過擬合包含控制變數的Bradley-Terry統計模型,CompassArena能夠估計眾多外在因素的影響程度,具體影響程度可以透過幾率比的形式來表達。
此次升級,CompassArena迎來了包括360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828等國內商業模型,以及claude-3.5-sonnet-20241022、gemini-exp-1121等國外商業模式和一系列開源模式的加入。新增模型所屬機構包括360、DeepSeek、豆包等,為使用者提供更豐富的對戰選擇。
體驗網址:https://www.modelscope.cn/studios/opencompass/CompassArena
這次CompassArena的升級,不僅提升了模型評估的科學性和準確性,也為使用者提供了更豐富的模型選擇和更便利的使用體驗,標誌著大模型評測平台邁向了一個新的階段。 歡迎造訪體驗地址,參與模型評估,共同推動大模型技術發展。