アリババの最新汎用マルチモーダル大型モデル mPLUG-Owl3 は、その強力なマルチモーダル理解能力と驚くべき推論効率により、人工知能の分野に旋風を巻き起こしています。 2時間のビデオコンテンツを4秒で理解し、ユーザーからのさまざまな質問に正確に答えることができ、画像、ビデオ、テキストの理解において優れたパフォーマンスを発揮します。この技術的進歩は学術界における画期的な出来事であるだけでなく、AI と人間の関わり方における将来の変化を予告するものでもあります。
この情報爆発の時代において、私たちは写真やビデオを使って自分の生活を記録し、毎日の幸せを共有しています。しかし、機械がこれらの写真やビデオを人間と同じように理解できるだけでなく、私たちと深くコミュニケーションできるテクノロジーがあったらどうなるか、考えたことはありますか?
アリババチームがリリースした最新の汎用マルチモーダル大型モデル mPLUG-Owl3 は、驚くべき効率性と理解力を備え、2 時間の映画を 4 秒で視聴できます。これは単なるモデルではありません。見て、聞いて、話し、考えることができるAIアシスタントです。
mPLUG-Owl3 という名前は、眼鏡をかけた賢くて警戒心の強いフクロウのように聞こえます。その中核となる機能は、長い画像シーケンスを理解することです。一連の写真であってもビデオであっても、内容を理解し、ストーリーラインを理解することもできます。
mPLUG-Owl3 が非常に多くの情報を処理できるようにするために、研究者らは mPLUG-Owl3 に超脳・超注意モジュールを装備しました。このモジュールは AI のスーパー頭脳のようなもので、視覚情報と言語情報を同時に処理でき、AI が画像と関連するテキスト情報の両方を理解できるようになります。
mPLUG-Owl3 モデルは、その優れた推論効率により、マルチモーダル理解の分野で大きな進歩を遂げました。単一画像、複数画像、ビデオなどのマルチシナリオベンチマークで SOTA (State of the Art) に達するだけでなく、ファーストトークンレイテンシーを 6 分の 1 に短縮し、処理できる画像の数も削減します。 A100 グラフィックス カード 1 枚で枚数が 8 倍になり、400 枚に達します。
mPLUG-Owl3 は、入ってくるマルチモーダルな知識を正確に理解し、それを使用して質問に答えることができます。どの知識に基づいて判断しているのか、また判断の詳細な根拠も知ることができます。
mPLUG-Owl3 は、さまざまなマテリアルの内容の関係を正確に理解し、詳細な推論を実行できます。文体の違いであっても、文字認識であっても、すべて簡単に処理できます。
mPLUG-Owl3 は、最長 2 時間のビデオを視聴して理解することができ、質問がビデオのどの部分に関係していても 4 秒以内にユーザーの質問に回答し始めることができます。
mPLUG-Owl3 は、軽量の Hyper tention モジュールを使用して、Transformer ブロックを、グラフィックおよびテキスト機能のインタラクションとテキスト モデリングが可能な新しいモジュールに拡張します。この設計により、導入される追加の新しいパラメーターの数が大幅に減り、モデルのトレーニングが容易になり、トレーニングと推論の効率も向上します。
mPLUG-Owl3 は、広範囲のデータセットを実験し、ほとんどの単一イメージのマルチモーダル ベンチマークで SOTA 結果を達成しました。マルチ画像評価では、マルチ画像シナリオ向けに特に最適化されたモデルを上回ります。 LongVideoBenchでは既存モデルを上回り、長時間動画の理解に優れた能力を発揮しました。
Alibaba mPLUG-Owl3 のリリースは、技術的な飛躍であるだけでなく、マルチモーダル大規模モデルのアプリケーションに新たな可能性をもたらします。テクノロジーは向上し続けるため、mPLUG-Owl3 が将来さらに驚きをもたらすことを楽しみにしています。
論文アドレス: https://arxiv.org/pdf/2408.04840
コード: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3
オンライン体験: https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
mPLUG-Owl3 の登場は、マルチモーダル大規模モデル技術の開発における新たな段階を示し、その効率的な処理能力と正確な理解能力により、将来の AI 技術応用の幅広い展望が開かれます。テクノロジーが成熟し続けるにつれて、mPLUG-Owl3 は人々の生活にさらなる利便性と驚きをもたらすと信じています。 mPLUG-Owl3 をベースにしたさらに革新的なアプリケーションを楽しみにしています。