中国研究团队取得重大突破,成功创建了目前最大规模的公开多模态AI 数据集“Infinity-MM”,并基于此训练出性能卓越的小型模型Aquila-VL-2B。该数据集包含海量图像描述、视觉指令数据以及由GPT-4 等AI 模型生成的数据,其合成方法结合了RAM++ 和MiniCPM-V 模型,确保了数据的质量和多样性。 Aquila-VL-2B 模型在多个基准测试中取得优异成绩,其参数量仅为20 亿,却在MMStar 基测试中获得54.9% 的高分,在数学和图像理解任务中也表现突出,这得益于合成数据的有效运用,模型性能因此提升了2.4%。更重要的是,该数据集和模型已向研究社区开放,推动了开源AI 的发展。
该研究成果标志着中国在多模态AI 领域取得了显着进展,Aquila-VL-2B 的成功以及Infinity-MM 数据集的开放,将为全球AI 研究社区提供宝贵的资源,促进多模态AI 技术的进一步发展和应用。 Infinity-MM 论文和Aquila-VL-2B 项目已上线,欢迎访问相关链接了解更多信息。