Downcodes の編集者は、中国の科学研究チームが Infinity-MM 超大規模マルチモーダル データセットと、そのトレーニングに基づいた Aquila-VL-2B AI モデルを立ち上げたことを知りました。このデータセットには大量の画像説明や視覚的指示データなどが含まれており、高度な画像分析と情報抽出技術を使用してデータの品質と多様性を確保しています。 Aquila-VL-2B モデルは複数のベンチマーク テストで良好なパフォーマンスを示し、同様のシステムを上回り、マルチモーダル AI 分野における中国の大幅な進歩を実証しました。そのオープンソースの性質により、学術研究と技術開発が大幅に促進されます。
Infinity-MM データセットの規模は驚異的であり、4 つの主要カテゴリのデータが含まれています。1,000 万件の画像記述、2,440 万件の一般的な視覚的指示データ、600 万件の厳選された高品質の指示データ、生成された GPT-4 などの 300 万件の AI モデルです。データ。研究チームは画像解析と情報抽出にオープンソースのAIモデルRAM++を使用し、独自の6カテゴリ分類システムを通じて生成されたデータの品質と多様性を確保している。
モデル アーキテクチャの点では、Aquila-VL-2B は LLaVA-OneVision 上に構築されており、Qwen-2.5 言語モデルと SigLIP 画像処理テクノロジが統合されています。研究チームは、基本的な画像とテキストの関連付け学習から始まり、徐々に一般的な視覚タスク、特定の命令処理に移行し、最後に合成データを組み込むという4段階のプログレッシブトレーニング手法を採用し、画像解像度の上限を徐々に高めました。
Aquila-VL-2B は、パラメーター スケールが 20 億しかないにもかかわらず、さまざまなベンチマーク テストで良好なパフォーマンスを示しました。マルチモーダル理解力テスト MMStar では最高スコア 54.9% を達成し、数学的能力テスト MathVista でも 59% という高スコアに達し、同様のシステムを大きく上回りました。一般的な画像理解テストでは、モデルは HallusionBench と MMBench でそれぞれ 43% と 75.2% という優れた結果を達成しました。
研究により、合成データの導入がモデルのパフォーマンス向上に大きく貢献することが判明しました。実験によると、この追加データを使用しない場合、モデルのパフォーマンスは平均 2.4% 低下します。 Aquila-VL-2B の性能は第 3 段階から、InternVL2-2B や Qwen2VL-2B などのリファレンスモデルを大きく上回り、特に第 4 段階ではデータ量が増加するにつれて性能の向上が顕著になります。
研究チームがデータセットとモデルを研究コミュニティに公開したことは注目に値します。これにより、マルチモーダル AI テクノロジーの開発が大幅に促進されます。このモデルは Nvidia A100 GPU でトレーニングされただけでなく、中国の自社開発チップもサポートしており、強力なハードウェア適応性を示しています。
Aquila-VL-2B モデルの発売は、中国におけるマルチモーダル AI の分野における大きな進歩を示し、そのオープンソースの性質と強力なパフォーマンスにより、この分野の技術開発とアプリケーションの革新が促進され、将来の開発に新たな活力が注入されます。人工知能の。 Downcodes の編集者は、今後も同様の画期的な開発が行われることを楽しみにしています。