近年来,人工智能领域在视觉和语言的融合方面取得了长足进步,特别是大型语言模型的出现,为多模态人工智能系统的发展注入了新的活力。然而,构建强大的视觉和视觉语言基础模型仍然面临挑战。为了应对这一挑战,来自多家知名高校和研究机构的研究人员合作,研发了一种名为InternVL的创新模型,旨在提升视觉基础模型的规模和通用性,从而更好地应对各种视觉语言任务。
近期,人工智能领域一直将视觉和语言的无缝整合作为关注焦点,特别是在大型语言模型(LLMs)的出现下,该领域取得了显着进展。然而,对于多模态AGI 系统而言,发展视觉和视觉语言基础模型仍有待迎头赶上。为填补这一差距,来自南京大学、OpenGVLab、上海人工智能实验室、香港大学、香港中文大学、清华大学、中国科技大学和SenseTime Research 的研究人员提出了一种创新的模型——InternVL。该模型扩大了视觉基础模型的规模,并使其适应通用的视觉语言任务。 InternVL 通过在32 个通用视觉语言基准测试中超越现有方法,展示了其在图像和视频分类、图像和视频文本检索、图像字幕、可见问题回答以及多模态对话等各种任务中的卓越能力。InternVL模型的出现,标志着视觉语言模型发展的新阶段,其在多个基准测试中取得的优异成绩,为未来多模态人工智能系统的构建提供了新的方向和可能性。期待未来该模型能够在更多实际应用中发挥作用,推动人工智能技术的发展和应用。