シンガポール国立大学の研究チームは、ビデオ内のビジュアル、オーディオ、音声コンテンツを理解できる video-SALMONN と呼ばれる高度なオーディオビジュアル大規模言語モデル (av-LLM) を開発しました。このモデルは、革新的なマルチ解像度因果 Q-Former 構造を通じて、事前トレーニングされたオーディオおよびビデオ エンコーダーを大規模言語モデルと接続し、ビデオ コンテンツの包括的な理解を実現します。この画期的な技術は、ビデオ質問応答などのタスクで目覚ましい成果を上げ、ビデオの理解と推論における人工知能の応用に新たな道を切り開き、教育、医療、その他の分野での幅広い応用をもたらすことが期待されています。
最近、シンガポール国立大学の Wenyi Yu 氏と彼のチームは、video-SALMONN と呼ばれる新しいテクノロジーを提案しました。このテクノロジーは、ビデオ内のビジュアル フレーム シーケンス、オーディオ イベント、および音楽を理解できるだけでなく、音声コンテンツを理解することもできます。このテクノロジーの導入は、マシンがビデオ コンテンツを理解できるようにするための重要なステップとなります。
Video-SALMONN は、事前トレーニングされたオーディオおよびビデオ エンコーダーと新しいマルチ解像度因果 Q-Former (MRC Q-Former) 構造を組み合わせた、エンドツーエンドのオーディオビジュアル大規模言語モデル (av-LLM) です。大規模な言語モデルの本体。この構造は、音声の理解に必要な詳細な時間情報を取得するだけでなく、他のビデオ要素の効率的な処理も保証します。
さまざまなビデオ要素のモデルのバランスの取れた処理を改善するために、研究チームは、ビデオ フレームやモダリティの優位性を回避するためのダイバーシティ損失やペアになっていないオーディオとビデオのハイブリッド トレーニング戦略など、特殊なトレーニング方法を提案しました。
新しく導入された音声・音声・映像評価ベンチマーク (SAVE) では、Video-SALMONN はビデオ質問応答 (video-QA) タスクで 25% 以上の絶対精度の向上を達成し、25% 以上の絶対精度の向上を達成しました。人間の音声を含む音声およびビデオの質問応答タスクでは、30% 以上の絶対精度の向上が達成されました。さらに、Video-SALMONN は、他の av-LLM では前例のないタスクに関して、ビデオの優れた理解と推論能力を実証します。
video-SALMONN の中核は、マルチ解像度因果 (MRC) Q-Former 構造です。これは、同期されたオーディオとビデオの入力機能とテキスト表現空間を 3 つの異なるタイム スケールに調整して、さまざまなビデオ要素のニーズに応じたさまざまなタスクの依存関係を満たします。 。さらに、連続するビデオ フレーム間の時間的因果関係を強化するために、特殊な因果マスクを備えた因果的自己注意構造が MRC Q-Former に含まれています。
Video-SALMONN の提案は、学術コミュニティに新しい研究ツールをもたらすだけでなく、実用化の幅広い可能性も提供します。これにより、テクノロジーと人間の間のインタラクションがより自然かつ直観的になり、ユーザー、特に子供や高齢者がテクノロジーの使い方を学ぶことの困難が軽減されます。同時に、運動障害を持つ人々を含め、テクノロジーのアクセシビリティを向上させる可能性もあります。
video-SALMONN の提案は、汎用人工知能 (AGI) の実現に向けた重要な一歩です。音声入力と既存の非音声音声および視覚入力を統合することにより、このようなモデルは人間の相互作用と環境を包括的に理解し、より広範囲の領域に適用できるようになります。
このテクノロジーの開発は、間違いなく、ビデオ コンテンツ分析、教育アプリケーション、人々の生活の質の向上に大きな影響を与えるでしょう。テクノロジーが進歩し続けるにつれて、将来の AI はよりインテリジェントになり、人間のニーズに近づくものになると信じる理由があります。
論文アドレス: https://arxiv.org/html/2406.15704v1
ビデオ SALMONN テクノロジーの画期的な進歩は、人工知能がビデオ理解の分野で新たなマイルストーンに到達したことを示しており、その広範な応用の見通しは楽しみに値します。 将来的には、同様の技術の継続的な開発により、人工知能と人間社会の深い統合がさらに促進されるでしょう。