中国研究团队取得重大突破,成功创建了目前最大规模的公开多模态 AI 数据集 “Infinity-MM”,并基于此训练出性能卓越的小型模型 Aquila-VL-2B。该数据集包含海量图像描述、视觉指令数据以及由 GPT-4 等 AI 模型生成的数据,其合成方法结合了 RAM++ 和 MiniCPM-V 模型,确保了数据的质量和多样性。Aquila-VL-2B 模型在多个基准测试中取得优异成绩,其参数量仅为 20 亿,却在 MMStar 基测试中获得 54.9% 的高分,在数学和图像理解任务中也表现突出,这得益于合成数据的有效运用,模型性能因此提升了 2.4%。更重要的是,该数据集和模型已向研究社区开放,推动了开源 AI 的发展。
该研究成果标志着中国在多模态 AI 领域取得了显著进展,Aquila-VL-2B 的成功以及 Infinity-MM 数据集的开放,将为全球 AI 研究社区提供宝贵的资源,促进多模态 AI 技术的进一步发展和应用。 Infinity-MM 论文和 Aquila-VL-2B 项目已上线,欢迎访问相关链接了解更多信息。