中国团队发布全球最大开源多模态数据集，2B参数模型性能创新高

作者：Eve Cole 更新时间：2024-11-30 10:36:01

Downcodes小编获悉，中国科研团队重磅推出Infinity-MM超大规模多模态数据集及基于其训练的Aquila-VL-2B AI模型。该数据集包含海量图像描述、视觉指令数据等，并采用先进的图像分析和信息提取技术，确保数据质量和多样性。 Aquila-VL-2B模型在多项基准测试中表现出色，超越同类系统，展现了中国在多模态AI领域的显着进展。其开源的特性将极大推动学术研究和技术发展。

Infinity-MM数据集规模惊人，共包含四大类数据:1000万条图像描述、2440万条通用视觉指令数据、600万条精选高质量指令数据，以及300万条由GPT-4等AI模型生成的数据。研究团队采用开源AI模型RAM++进行图像分析和信息提取，并通过独特的六大类分类系统确保生成数据的质量和多样性。

在模型架构方面，Aquila-VL-2B基于LLaVA-OneVision构建，整合了Qwen-2.5语言模型和SigLIP图像处理技术。研究团队采用了四阶段渐进式训练方法:从基础的图文关联学习开始，逐步过渡到通用视觉任务、特定指令处理，最后融入合成数据，同时逐步提升图像分辨率上限。

尽管仅有20亿参数规模，Aquila-VL-2B在各项基准测试中表现亮眼。在多模态理解能力测试MMStar中取得54.9%的最佳成绩，在数学能力测试MathVista中更是达到59%的高分，显着超越同类系统。在通用图像理解测试中，该模型在HallusionBench和MMBench分别获得43%和75.2%的优异成绩。

研究发现，合成数据的引入对模型性能提升贡献显着。实验表明，若不使用这些额外数据，模型性能平均下降2.4%。从第三阶段开始，Aquila-VL-2B的性能就显着超越了InternVL2-2B和Qwen2VL-2B等参考模型，特别是在第四阶段，随着数据量增加，性能提升更为明显。

值得一提的是，研究团队已将数据集和模型向研究社区开放，这将极大促进多模态AI技术的发展。该模型不仅在Nvidia A100GPU上完成训练，还支持中国自研芯片，展现了强大的硬件适应性。

Aquila-VL-2B模型的推出标志着中国在多模态AI领域取得了重大突破，其开源性和强大的性能将推动该领域的技术发展和应用创新，为未来人工智能发展注入新的活力。 Downcodes小编期待未来更多类似的突破性进展。