高分辨率、逼真图像的文本到图像生成一直是计算机视觉领域的难题。传统的生成方法如扩散模型和变换自回归模型,虽然能生成高质量图像,却面临计算资源消耗巨大、细节丢失等问题。字节跳动提出的全新框架“Infinity”旨在解决这些挑战,它通过创新性的比特级标记和无限词汇分类器,显着提升了生成效率和图像质量。
在图像生成领域,高分辨率和逼真图像的任务一直面临多重挑战,特别是在文本到图像的合成过程中。传统的生成方法大多依赖于扩散模型和变换自回归(VAR)框架。
这些模型虽然能够产生高质量的图像,但需要消耗大量计算资源,这使得它们在实时应用中显得不够灵活。与此同时,VAR 模型在处理离散标记时容易产生累积误差,导致生成的图像细节丢,从而影响图像的真实感。
为了克服这些不足,字节跳动的研究团队推出了名为“Infinity” 的全新框架,该框架旨在提升文本到图像合成的效率和质量。
Infinity 通过引入比特级标记替代传统的索引级标记,实现了更细粒度的表示方式,从而显着减少了量化误差并提高了生成图像的真实度。此外,该框架还使用了一个无限词汇分类器(IVC),将标记词汇扩展到2^64,大幅降低了内存和计算需求。
Infinity 架构主要由三部分组成:一种比特级多尺度量化标记器,将图像特征转化为二进制标记,以计算开销;一种基于变换器的自回归模型,该模型根据文本提示和先前输出预测残差;以及一种自我修正机制,在训练过程中引入随机比特翻转,提高模型对误差的鲁棒性。研究团队利用LAION 和OpenImages 等大型数据集进行训练,通过逐步提升图像分辨率,从256×256到1024×102的过程,取得了显着的进展。
经过评估,Infinity 在关键指标上显示出了优秀的性能,其GenEval 得分为0.,Fréchet Inception Distance(FID)降低至3.48,证明了其在生成速度和质量方面的提升。 Infinity 能在0.8秒内生成1024×1024的高分辨率图像,表现出其高效性和可靠性。该系统生成的图像不仅在视觉上真实且细节丰富,还能够准确响应复杂的文本指令,得到了较高的人类偏好评分。
Infinity 的推出标志着高分辨率文本到图像合成领域的新标杆,它通过创新的设计解决了长期存在的可扩展性和细节质量问题,推动了生成AI 的进一步发展。
论文:https://arxiv.org/abs/2412.04431
划重点:
? ** 创新框架Infinity:** 字节跳动推出的Infinity 框架,通过比特级标记化和无限词汇分类器,大幅提升高分辨率图像生成效率。
⚡ ** 卓越性能:** Infinity 在关键评估指标上超越了现有模型,能在0.8秒内生成1024×1024的高质量图像。
?️ ** 真实细节与响应能力:** 生成的图像不仅视觉真实,还能精准响应复杂文本提示,表现出高人类偏好评分。
总而言之,Infinity 框架为高分辨率文本到图像生成提供了一种高效且高质量的解决方案,其在速度、图像质量和对复杂文本指令的响应能力方面都取得了显着的突破,为生成式AI的发展树立了新的里程碑。