Alibaba Tongyi Qianwen チームが動的ビデオのリアルタイム分析をサポートする Qwen2-VL モデルを発表

著者：Eve Cole 更新時間：2024-12-24 09:32:01

Alibaba Damo Academy は、2024 年 8 月 30 日にマルチモーダル大規模言語モデル Qwen2-VL のメジャーアップデートをリリースしました。このアップデートにより、画像の理解、ビデオ処理、多言語サポートが大幅に進歩し、新しいパフォーマンスベンチマークが設定されました。 Qwen2-VL モデルは、視覚情報の理解を向上させるだけでなく、高度なビデオ理解機能と統合された視覚化エージェント機能を備えており、より複雑な推論と意思決定を実行できるようになります。さらに、多言語サポートの拡張により、世界中での使用が容易になります。

Qwen2-VL モデルは、画像理解、ビデオ処理、多言語サポートにおいて大幅な改善を達成し、主要業績評価指標の新たなベンチマークを設定しました。 Qwen2-VL モデルの新機能には、視覚情報のより正確な理解と解釈を可能にする強化された画像理解機能、モデルがリアルタイムで動的ビデオコンテンツを分析できるようにする高度なビデオ理解機能、およびモデルを変換する統合視覚化エージェント機能が含まれます。複雑な推論と意思決定のための強力なエージェントとなり、多言語サポートが拡張され、さまざまな言語環境でよりアクセスしやすく、効果的になります。

技術アーキテクチャの面では、Qwen2-VL は動的解像度サポートを実装しており、ブロックに分割せずにあらゆる解像度の画像を処理できるため、モデル入力と画像の固有情報の間の一貫性が確保されます。さらに、Multimodal Rotary Position Embedding (M-ROPE) の革新により、モデルは 1D テキスト、2D ビジョン、および 3D ビデオの位置情報を同時にキャプチャして統合することができます。

Qwen2-VL-7B モデルは、7B スケールでの画像、マルチ画像、およびビデオ入力のサポートを維持しており、文書理解タスクや画像ベースの多言語テキスト理解で優れたパフォーマンスを発揮します。

同時に、チームはモバイル展開に最適化された 2B モデルもリリースしました。パラメータの数はわずか 2B ですが、画像、ビデオ、および多言語の理解に優れた性能を発揮します。

モデルリンク:

Qwen2-VL-2B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Instruct

Qwen2-VL-7B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct

Qwen2-VL モデルのアップデートは、画像、ビデオ、および多言語処理における強力な機能により、マルチモーダル大規模言語モデルテクノロジの新たな進歩を示し、将来のアプリケーションに幅広い展望をもたらします。 7B と 2B の 2 つのバージョンの発売により、さまざまなアプリケーションシナリオ向けのより柔軟なオプションも提供されます。