中國團隊推世界最大多模態資料集“Infinity-MM”和頂尖微型AI模型“Aquila-VL-2B”

作者：Eve Cole 更新時間：2024-11-29 14:41:11

Downcodes小編獲悉，中國研究團隊成功創建了目前最大規模的公開多模態AI資料集“Infinity-MM”，並基於此資料集訓練出性能卓越的小型模型Aquila-VL-2B。此模型在多個基準測試中取得優異成績，展現了合成數據在提升AI模型效能方面的巨大潛力。 Infinity-MM資料集包含影像描述、視覺指令資料等多種類型數據，其生成過程利用了RAM++和MiniCPM-V等開源AI模型，並經過多層次處理以確保資料品質和多樣性。 Aquila-VL-2B模型則以LLaVA-OneVision架構，並以Qwen-2.5作為語言模型。

近日，來自多家中國機構的研究團隊成功創建了「Infinity-MM」資料集，這是目前最大規模的公開多模態AI 資料集之一，同時訓練出了一款性能卓越的小型新模型— —Aquila-VL-2B。

該資料集主要包含四大類數據:1000萬條圖像描述、2440萬條一般視覺指令數據、600萬條精選高品質指令數據，以及300萬條由GPT-4和其他AI 模型生成的數據。

在生成方面，研究團隊利用現有的開源AI 模型。首先，RAM++ 模型分析影像並提取重要訊息，隨後產生相關問題和答案。此外，團隊還建立了一種特殊的分類系統，確保產生數據的品質和多樣性。

此合成資料生成方法採用了多層次的處理方式，結合了RAM++ 和MiniCPM-V 模型，透過影像辨識、指令分類和回應生成，為AI 系統提供了精準的訓練資料。

Aquila-VL-2B 模型基於LLaVA-OneVision 架構，使用Qwen-2.5作為語言模型，並採用SigLIP 進行影像處理。模型的訓練分為四個階段，逐步提升複雜性。在第一階段，模型學習了基本的圖像- 文字關聯;後續階段則包含一般視覺任務、具體指令的執行，以及最終整合合成生成的資料。的影像解析度也在訓練逐漸提升。

測試中，Aquila-VL-2B 憑藉僅20億參數的體積，在多模態的MMStar 基測中以54.9% 的得分下最佳成績。此外，在數學任務中，模型表現特別突出，在MathVista 測驗中得分達59%，遠超同類系統。

在通用影像理解的測驗中，Aquila-VL-2B 同樣表現優異，HallusionBench 得分為43%，MMBench 得分為75.2%。研究人員表示，合成生成數據的加入顯著提升了模型的表現，若不使用這些額外數據，模型的平均表現將下降2.4%。

此次研究團隊決定將資料集和模型向研究社群開放，訓練過程主要使用Nvidia A100GPU 及中國本土晶片。 Aquila-VL-2B 的成功推出，標誌著開放原始碼模型在AI 研究中逐漸迎頭趕上傳統閉源系統的趨勢，尤其是在利用合成訓練資料方面展現出良好的前景。

Infinity-MM論文入口:https://arxiv.org/abs/2410.18558

Aquila-VL-2B計畫入口:https://huggingface.co/BAAI/Aquila-VL-2B-llava-qwen

Aquila-VL-2B的成功，不僅證明了中國在AI領域的技術實力，也為開源社群提供了寶貴的資源。其高效的性能和開放的策略，將推動多模態AI技術的發展，值得期待其未來在更多領域的應用。