中国の科学研究チームは、データセットに基づいて訓練されたInfinity-MM Super-Large-ScaleマルチモーダルデータセットとAquila-VL-2B AIモデルを立ち上げ、マルチモーダルAIの分野に大きなブレークスルーをもたらしました。 Infinity-MMデータセットには、GPT-4モデルによって生成された大規模な画像の説明、視覚的命令データ、データが含まれており、画像分析にRAM ++モデルを使用し、一意の6カテゴリー分類システムを使用してデータ品質を確保します。 Aquila-VL-2Bモデルは、LLAVA-OneVisionアーキテクチャに基づいており、QWEN-2.5言語モデルとSiglip画像処理テクノロジーを統合し、4段階のプログレッシブトレーニング方法を採用し、複数のベンチマークテストで優れたパフォーマンスを発揮し、同様のシステムを超えています。
Infinity-MMデータセットの規模は驚くべきものであり、4つのカテゴリのデータが含まれています。1000万の画像の説明、2440万の一般的な視覚指導データ、600万の選択された高品質の命令データ、GPT-4などの300万のAIモデルが生成されました。データ。研究チームは、画像分析と情報抽出にオープンソースAIモデルRAM ++を使用し、一意の6カテゴリー分類システムを介して生成されたデータの品質と多様性を確保しました。
モデルアーキテクチャに関しては、Aquila-VL-2BはLlava-nevisionに基づいて構築され、Qwen-2.5言語モデルとSiglip画像処理技術を統合します。研究チームは、基本的なグラフィックテキスト相関学習から始まり、一般的な視覚タスクと特定の指導処理に徐々に移行し、最終的に合成データを統合しながら、画像解像度の上限を徐々に増加させながら、4段階の段階的なトレーニング方法を採用しました。
わずか20億のパラメーターにもかかわらず、Aquila-VL-2Bはさまざまなベンチマークテストでうまく機能しました。マルチモーダル理解能力テストMMSTARの最高のスコアは54.9%を達成し、数学能力テストMathvistaのハイスコアは59%を達成し、同様のシステムを大幅に上回りました。一般的な画像理解テストでは、モデルはそれぞれHallusionbenchとMmbenchで43%と75.2%の優れた結果を達成しました。
この研究では、合成データの導入がモデルパフォーマンスの改善に大きく貢献したことがわかりました。実験では、これらの追加データを使用せずに、モデルのパフォーマンスが平均2.4%低下することが示されています。第3段階から始めて、Aquila-VL-2Bのパフォーマンスは、特に第4段階で、InternVL2-2BやQWEN2VL-2Bなどの参照モデルを大幅に上回りました。
研究チームは、マルチモーダルAIテクノロジーの開発を大いに促進する研究コミュニティにデータセットとモデルを開設したことに言及する価値があります。このモデルは、NVIDIA A100GPUでのトレーニングを完了するだけでなく、中国の自己開発チップをサポートし、強力なハードウェアの適応性を示しています。
Aquila-VL-2Bモデルの成功と、データセットとモデルのオープンソースは、中国のマルチモーダル人工知能分野の大きな進歩を示し、将来のAI開発の基盤を提供し、マルチモーダルAIも示していますより広範なアプリケーションの見通しを案内します。