Downcodes の編集者は、北京知源人工知能研究所 (BAAI) が世界初の中国の大規模モデル ディベート プラットフォーム FlagEval Debate を立ち上げたことを知りました。このプラットフォームは、モデルの議論を核として、さまざまな大規模モデルの機能の違いをより効果的に区別することを目的として、大規模言語モデルの機能評価のための新しい測定方法を提供します。言語ベースの知的活動であるディベートを巧みに利用して、情報理解、論理的推論、言語生成などにおけるモデルの能力を総合的に検証し、公開テストと専門家によるレビューを組み合わせて評価結果の科学性と信頼性を確保します。 .セックス。この動きは、大型モデルの評価における新たなマイルストーンとなり、業界にとって貴重な参考資料となります。
北京知源人工知能研究所(BAAI)は最近、世界初の中国製大型モデル討論プラットフォームであるFlagEval Debateを立ち上げた。この新しいプラットフォームは、モデルディベートの競争メカニズムを通じて、大規模言語モデルの能力評価のための新しい測定方法を提供することを目的としています。これは、Intelligent Source モデルの戦闘評価サービスである FlagEval 大型モデル アリーナの拡張であり、その目的は、大型言語モデル間の機能の違いを特定することです。
既存の大規模なモデルのバトルにはいくつかの問題があります。たとえば、モデルのバトルの結果は互角であることが多く、テストの内容がユーザーの投票に依存しており、多数の既存のユーザーの参加が必要です。戦闘方法にはモデル間の相互作用が欠けています。これらの問題を解決するために、知財研究所は大規模なモデル討論の形式を採用して評価を行った。
言語ベースの知的活動であるディベートは、参加者の論理的思考、言語構成、情報分析および処理能力を反映することができます。モデルの議論では、複雑な状況における情報処理の深さと移行の適応性をテストしながら、情報理解、知識統合、論理的推論、言語生成および対話機能における大規模モデルのレベルを実証できます。
Zhiyuan Research Institute は、ディベートなどのインタラクティブなバトルによりモデル間のギャップを強調し、少数のデータ サンプルに基づいてモデルの効果的なランキングを計算できることを発見しました。そこで彼らは、公開テストに基づいた中国の大型モデル討論プラットフォームである FlagEval Debate を立ち上げました。
このプラットフォームは、ディベート トピックに関するディベートを実行するための 2 つのモデルをサポートしています。ディベート トピック データベースは、主に、ホット検索トピック、評価専門家、トップ ディベート エキスパートによって順序付けられたディベート トピックで構成されます。ユーザーエクスペリエンスを向上させるために、すべての議論はすべてのユーザーによってプラットフォーム上で判断されます。
各モデル討論には 5 ラウンドの意見発表が含まれており、各側に 1 回の機会が与えられます。正と負の正方形の位置によって生じるずれを避けるために、両方のモデルはそれぞれ 1 つの正方形と 1 つの負の正方形を実行します。それぞれの大きなモデルは他のモデルと複数の討論で競い合い、最終的なモデルのランキングは勝利ポイントに基づいて計算されます。
モデルディベート大会では、公開テストと専門家による審査という2つの方法が採用されており、専門家審査員はプロのディベート大会の選手と審査員で構成されています。公開テストの視聴者は自由に評価して投票できます。
Zhiyuan Research Instituteは、モデル議論の技術的道筋と応用価値を探求し続け、科学、権威、公平性、公開性の原則を遵守し、FlagEval大型モデル評価システムを継続的に改善し、新しい洞察と考え方を提供すると述べた。大規模モデルの評価生態学。
FlagEval ディベート公式ウェブサイト:
https://flageval.baai.org/#/debate
FlagEval Debate の開始は、大規模モデル評価のための新しいアイデアと手法を提供し、大規模モデル技術の発展にも貢献します。 Downcodes の編集者は、プラットフォームが今後も改善され続け、大型モデルの分野にさらなる革新と画期的な進歩をもたらすことを期待しています。