Zero One Wish は、Yi シリーズのマルチモーダル言語モデル Yi-VL をリリースしました。これは、画像とテキストの理解と対話生成において優れたパフォーマンスを実証しました。 Yi-VL モデルは、中国語と英語の両方のデータセットで優れた結果を達成しており、特に MMMU ベンチマーク テストでは、Yi-VL-34B が他の同様のモデルを 41.6% の精度で上回り、その強力な学際的な知識の理解と応用能力を実証しています。 。この記事では、マルチモーダル分野における Yi-VL モデルのアーキテクチャ、パフォーマンス、重要性を深く探ります。
01Wan Yi-VL マルチモーダル言語モデルは、01Wan Yi シリーズ モデル ファミリの新しいメンバーであり、画像とテキストの理解と対話生成において優れた機能を備えています。 Yi-VL モデルは、英語のデータセット MMMU と中国語のデータセット CMMMU の両方で優れた結果を達成しており、複雑な学際的なタスクにおけるその強みを実証しています。 Yi-VL-34B は、新しいマルチモーダル ベンチマーク MMMU において 41.6% の精度で他のマルチモーダル大型モデルを上回り、その強力な学際的な知識理解と応用能力を実証しました。 Yi-VL モデルは、オープンソースの LLaVA アーキテクチャに基づいており、ビジョン トランスフォーマー (ViT)、投影モジュール、大規模言語モデル Yi-34B-Chat および Yi-6B-Chat が含まれています。 ViT は画像のエンコードに使用され、投影モジュールは画像の特徴をテキストの特徴と空間的に位置合わせする機能を実装し、大規模な言語モデルは強力な言語理解および生成機能を提供します。Yi-VL モデルの登場は、マルチモーダル言語モデル テクノロジにおける新たなブレークスルーを示しており、その強力なパフォーマンスと広範なアプリケーションの見通しは期待に値します。将来的には、技術の継続的な発展に伴い、Yi-VLモデルはより多くの分野で重要な役割を果たし、人工知能技術の進歩と応用を促進すると予想されます。