大規模モデル評価プラットフォーム CompassArena がアップグレードし、新しい Judge Copilot 機能を開始

著者：Eve Cole 更新時間：2024-12-24 19:00:01

上海人工知能研究所新安の OpenCompass チームが立ち上げた CompassArena 大型モデル評価プラットフォームと ModelScope プラットフォームが最近大幅にアップグレードされました。このアップグレードは、ユーザーエクスペリエンスを向上させ、より科学的かつ包括的なモデル評価を提供することを目的としています。 CompassArena は、大量のユーザーデータを収集し、継続的に最適化することで、Judge Copilot 機能の追加、ランキングアルゴリズムの改善、国内外のビジネスモデルとオープンソースモデルをカバーする 20 以上の新しいモデルを組み込み、より豊かなユーザーデータをユーザーに提供します。選択肢とより正確なモデルのランキング。

Judge Copilot 機能は、強力な評価モデル Compass-Judger-1-32B-Instruct を使用して、多次元評価、リアルタイム比較からインテリジェントな意思決定まで、対話モデルのパフォーマンスを包括的に比較および分析する機能をユーザーに提供します。評価の効率と精度を向上させるための支援。同時に、アップグレードされたランキングアルゴリズムは、Bradley-Terry 統計アルゴリズムを改善し、制御変数を導入することで交絡因子の影響を効果的に軽減し、モデルのランキングをより科学的かつ正確にします。また、このプラットフォームはユーザーのフィードバックを積極的に収集し、Judge モデルの総合的な機能と調整効果を継続的に改善します。

微信截图_20241219174613.png

CompassArena は、実際のアプリケーションにおける Judge モデルのパフォーマンスを非常に重視しており、Judge モデルの包括的な機能とアライメント効果をさらに向上させるためにユーザーからのフィードバックを積極的に収集しています。ユーザーは「好き」「嫌い」ボタンをクリックすることで、Judge モデルに対する評価を表明できます。 CompassArena は、制御変数を含む Bradley-Terry 統計モデルを当てはめることにより、多くの外部要因の影響を推定でき、具体的な影響はオッズ比の形で表現できます。

このアップグレードにより、CompassArena は、360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828、および claude-3.5-sonnet-20241022、gemini-exp-1121 などを含む国内ビジネスモデルを歓迎します。 . 外国のビジネスモデルと一連のオープンソースモデルの追加。新しいモデルは 360、DeepSeek、Doubao などの組織に属しており、ユーザーにより豊富な戦闘オプションを提供します。

体験アドレス：https://www.modelscope.cn/studios/opencompass/CompassArena

CompassArena のこのアップグレードは、モデル評価の科学性と精度を向上させるだけでなく、ユーザーにより豊富なモデルの選択肢とより便利なエクスペリエンスを提供し、大規模モデル評価プラットフォームの新たな段階を示します。体験アドレスを訪問し、モデル評価に参加し、大型モデル技術の開発を共同で推進することを歓迎します。