智源研究院近日重磅发布新一代多模态基础模型Emu2,其在多模态上下文学习能力上取得了显着突破。通过大规模自回归生成式多模态预训练,Emu2在少样本多模态理解任务中表现优异,超越了Flamingo-80B和IDEFICS-80B等主流模型,并在多个少样本理解、视觉问答和图像生成任务上达到最优性能。 Emu2包含两个主要应用:Emu2-Chat和Emu2-Gen,分别专注于图文指令理解和图像/视频生成。
智源研究院发布了新一代多模态基础模型Emu2,通过大规模自回归生成式多模态预训练,显着推动了多模态上下文学习能力的突破。 Emu2 在少样本多模态理解任务上表现出色,超越了主流多模态预训练大模型Flamingo-80B 和IDEFICS-80B。 Emu2 取得了多个少样本理解、视觉问答、图像生成任务上的最优性能。 Emu2-Chat 可以精准理解图文指令,实现更好的信息感知、意图理解和决策规划。 Emu2-Gen 可以接受图像、文本、位置交错的序列作为输入,实现灵活、可控、高质量的图像和视频生成。 Emu2 采用了更简单的建模框架,并将模型规模化到37B 参数。详情请参考智源研究院发布的项目链接。Emu2凭借其强大的性能和简洁的框架,展现了多模态人工智能领域的最新进展,为未来多模态应用的开发提供了坚实的基础。 智源研究院的持续创新值得期待。