北京知源人工知能研究所 (BAAI) は、2024 年 9 月 4 日に FlagEval 大型モデル アリーナを開始しました。これは、ヴィンセントのビデオを含む世界初のモデル戦闘評価サービスです。このサービスは一般に公開されており、国内外の約 40 の大規模モデルをカバーしており、言語の質問と回答、マルチモーダル画像とテキストの理解、テキストベースの画像、テキストという 4 つの主要なタスクのカスタマイズされたオンラインまたはオフラインの評価をサポートしています。ベースのビデオを作成し、主観的なラダー スコアリング システムを革新的に導入し、モデルのパフォーマンスをより正確に評価するよう努めています。 FlagEvalは、簡単な理解、知識の応用、コーディング能力、推論能力など、あらかじめ設定されたさまざまな質問を評価するだけでなく、匿名のメカニズムを使用して評価プロセスの公平性と客観性を確保します。ユーザーはWebやモバイル端末を通じて評価に参加し、採点結果やアリーナランキングをリアルタイムに確認できる。
2024 年 9 月 4 日、北京知源人工知能研究院 (BAAI) は、Vincent の video-FlagEval 大型モデル アリーナを含む世界初のモデル戦闘評価サービスの開始を発表しました。
このサービスはユーザーに公開されており、国内外の約 40 の大規模モデルをカバーしており、言語の質疑応答、マルチモーダル画像とテキストの理解、Vincentian 写真、Vincentian ビデオを含む 4 つの主要なタスクのカスタマイズされたオンラインまたはオフラインの評価をサポートしています。 FlagEval 大型モデル アリーナの開始により、単純な理解、知識の応用、コーディング能力、推論能力など、あらかじめ設定されたさまざまな質問の評価が提供されるだけでなく、主観的傾向ラダー スコアリング システムが初めて導入され、より多くの評価が可能になります。モデルのパフォーマンスの違いを正確に明らかにします。
本サービスでは、評価プロセスの公平性を確保するため、匿名評価の仕組みを採用しております。ユーザーはWebページや国内初のモバイルアクセスポータルを通じて評価に参加し、効率的なモデルバトル評価を体験することができます。 FlagEval の大型モデルアリーナの採点結果は直ちに発表され、各モデルの戦闘能力を示すアリーナリストが作成されます。
Zhiyuan Research Instituteは、大規模モデル評価生態学の発展を促進するために、モデル戦闘評価のフルリンクデータをオープンソース化すると述べた。 FlagEvalの大規模モデルアリーナの立ち上げにより、Zhiyuanの技術レイアウトとモデル評価分野のツールと手法の研究開発がさらに拡大され、人工知能分野の研究と応用のための新しいテストと評価ツールが提供される。
体験アドレス: https://flageval.baai.ac.cn/#/home
Zhiyuan Research Institute のオープンソース FlagEval 大規模モデル アリーナ データは、大規模モデル評価エコシステムの健全な発展を促進し、人工知能分野の継続的な進歩を強力にサポートすることを目的としています。 体験アドレスへの訪問、評価への参加、AI技術の開発を共同で推進することを歓迎します。