图像生成领域取得了显着进展,但现有模型的局限性阻碍了语言视觉模型的统一。本文介绍了一种名为Meissonic的新型文本到图像模型,它通过非自回归掩码图像建模(MIM)技术,在仅需10亿参数的情况下,实现了与最先进扩散模型(如SDXL )相当的图像生成质量。 Meissonic凭借其架构创新、位置编码策略以及优化的采样条件,显着提高了MIM的性能和效率,并在消费级GPU上实现了1024×1024分辨率图像的生成。
Meissonic 的核心在于一系列架构创新、先进的位置编码策略以及优化的采样条件,这些改进显着提高了MIM 的性能和效率。此外,Meissonic 还利用了高质量的训练数据,集成了基于人类偏好分数的微条件,并采用了特征压缩层,进一步增强了图像的保真度和分辨率。
与SDXL 和DeepFloyd-XL 等大型扩散模型不同,Meissonic 仅有10亿参数,却能生成1024×1024分辨率的高质量图像,并且可以在仅有8GB 显存的消费级GPU 上运行,无需任何额外的模型优化。此外,Meissonic 可以轻松生成具有纯色背景的图像,而这在扩散模型中通常需要模型微调或噪声偏移调整。
为了实现高效的训练,Meissonic 的训练过程被分解为四个精心设计的阶段:
第一阶段:从海量数据中理解基本概念。 Meissonic 利用经过筛选的LAION-2B 数据集,在256×256分辨率下进行训练,学习基础概念。
第二阶段:使用长提示对齐文本和图像。 训练分辨率提升至512×512,并使用高质量的合成图像文本对和内部数据集,提高模型理解长描述性提示的能力。
第三阶段:掌握特征压缩以实现更高分辨率的生成。 通过引入特征压缩层,Meissonic 可以从512×512无缝过渡到1024×1024生成,并使用精选的高质量高分辨率图像文本对进行训练。
第四阶段:优化高分辨率美学图像生成。 在这一阶段,模型使用较小的学习率进行微调,并加入人类偏好分数作为微条件,以增强模型生成高质量图像的性能。
通过一系列定量和定性指标的评估,包括HPS、MPS、GenEval 基准测试和GPT4o 评估,Meissonic 表现出优越的性能和效率。与DALL-E2和SDXL 相比,Meissonic 在人类性能和文本对齐方面都取得了竞争性的表现,同时也展现出其高效性。
此外,Meissonic 在零样本图像到图像编辑方面也表现出色。在EMU-Edit 数据集上,Meissonic 在背景更改、图像内容更改、风格更改、对象移除、对象添加、局部修改和颜色/纹理更改等七种不同操作上均取得了领先的成绩,而这一切都无需在特定于图像编辑的数据或指令集上进行训练或微调。
项目地址:https://github.com/viiika/Meissonic
论文地址:https://arxiv.org/pdf/2410.08261
总而言之,Meissonic 模型在高效性和图像生成质量方面取得了显着突破,为未来语言视觉模型的开发提供了新的方向。其轻量级特性使其能够在消费级硬件上运行,并展现出在零样本图像编辑方面的强大能力,具有广阔的应用前景。