最近、オープンソース AI モデル Reflection70B が、そのパフォーマンスに関する論争により業界で広く注目を集めています。このモデルは HyperWrite によってリリースされました。当初、このモデルは世界で最も強力なオープンソース モデルであると主張されており、サードパーティのテストで優れたパフォーマンスを示したため、多くの注目を集めました。しかし、一部の独立機関やユーザーはその後そのパフォーマンスに疑問を抱き、テスト結果はHyperWriteの当初の主張とは大きく異なった。
デビューしたばかりのオープンソース AI モデル Reflection70B は、最近業界で広く疑問視されています。
ニューヨークの新興企業HyperWriteがリリースしたこのモデルは、MetaのLlama3.1亜種を主張しており、サードパーティテストでの優れたパフォーマンスにより注目を集めている。しかし、いくつかのテスト結果が発表されると、Reflection70B の評判が疑問視され始めました。
事の発端は、HyperWriteの共同創設者兼CEOのMatt Shumer氏が9月6日にソーシャルメディアX上でReflection70Bを発表し、自信を持って「世界最強のオープンソースモデル」と称したことにあった。
Shumer 氏はまた、モデルの「リフレクティブ チューニング」テクノロジーについても共有し、この方法によりコンテンツを生成する前にモデル自体がレビューできるため、精度が向上すると主張しました。
しかし、HyperWriteの発表の翌日、「AIモデルとホスティングプロバイダーの独立した分析」を専門とするグループであるArtificial AnalysisがX上で独自の分析を公開し、Reflection Llama3.170BのMMLU(Massive Multitask Language Understanding)スコアを評価したと指摘した。これは、Llama370B と同じですが、Meta の Llama3.170B よりも大幅に低く、HyperWrite/Shumer によって最初に公開された結果とは大きく異なります。
Shumer 氏は後に、Hugging Face (サードパーティの AI コード ホスティング リポジトリおよび企業) へのアップロード中に Reflection70B の重み (またはオープン ソース モデルの設定) に問題があり、その結果、HyperWrite の「内部 API」よりもパフォーマンスが低下した可能性があると述べました。 「バージョンです。」
Artificial Analysis はその後の声明で、プライベート API へのアクセスを獲得し、素晴らしいパフォーマンスが得られたものの、当初述べたレベルには達していないと述べた。このテストはプライベート API で実施されたため、テスト内容を独自に検証することはできませんでした。
このグループは、HyperWrite と Shumer の当初のパフォーマンス主張に重大な疑問を投げかける 2 つの重要な問題を提起しました。
一方、Reddit 上の複数の機械学習および AI コミュニティのユーザーも、Reflection70B の主張されているパフォーマンスと起源に疑問を抱いています。サードパーティが Github に投稿したモデル比較に基づいて、 Reflection70B は Llama-3.1 ではなく Llama3 の亜種であると思われると指摘する人もおり、Shumer と HyperWrite の当初の主張にさらなる疑問を投げかけています。
その結果、少なくとも 1 人の X ユーザー、真女神ボソンが東部時間 9 月 8 日に投稿しました。
EDT午後8時7分、シューマー氏はAI研究コミュニティにおける「不正行為」を公に非難し、スクリーンショットやその他の証拠の長いリストを公開した。
このモデルは実際には「ラッパー」、つまりプロプライエタリ/クローズドソースの競合他社である Anthropic の Claude3 上に構築されたアプリケーションであると主張する人もいます。
しかし、他の X ユーザーも Shumer と Reflection70B を擁護し、そのモデルの最終製品で素晴らしいパフォーマンスを記録している人もいます。
現在、AI 研究コミュニティは、これらの詐欺告発に対する Shumer の返答と、Hugging Face のモデルの重みの更新を待っています。
Reflection70B モデルのリリース後、テスト結果は当初の主張を再現できず、パフォーマンスに疑問が生じました。
⚙️ HyperWrite の創設者は、モデルのアップロードの問題がパフォーマンスの低下を引き起こしていると説明し、更新されたバージョンへの注意を呼び掛けました。
このモデルはソーシャルメディア上で激しく議論されており、非難と擁護が入り混じっている。
現在、Reflection70B 事件はまだ進行中であり、最終結果はさらなる調査と対応を待つ必要があります。 この事件はまた、AI モデルのパフォーマンス向上には慎重であり、判断するには独立した検証結果に依存する必要があることを思い出させます。