Downcodes小编获悉,谷歌DeepMind 联合麻省理工学院(MIT)取得了文本到图像生成领域的重大突破。他们开发的新型自回归模型Fluid,在105亿参数规模下展现出卓越性能,颠覆了业界对自回归模型在图像生成领域的认知。这项研究的核心在于创新性地引入了连续型词元和随机生成顺序,显着提升了模型的性能和可扩展性,为图像生成技术带来了新的方向。
谷歌DeepMind 联合麻省理工学院(MIT)近日发布了一项重大研究成果。研究团队开发的新型自回归模型Fluid在文本到图像生成领域取得了突破性进展,该模型在扩展到105亿参数规模后,性能表现出色。
这项研究颠覆了业界普遍认知。此前,自回归模型虽然在语言处理领域占据主导地位,但在图像生成方面一直被认为不如Stable Diffusion 和Google Imagen3等扩散模型。研究人员通过创新性地引入两个关键设计因素,显着提升了自回归模型的性能和可扩展性:采用连续型词元替代离散型词元,以及引入随机生成顺序取代固定顺序。
在图像信息处理方面,连续型词元的优势明显。传统的离散型词元会将图像区域编码为有限词汇表中的代码,这种方式inevitably导致信息损失,即使是大型模型也难以准确生成对称眼睛等细节特征。而连续型词元能够保存更精确的信息,显着提升图像重建质量。
研究团队还对图像生成顺序进行了创新。传统自回归模型通常采用从左到右、从上到下的固定顺序生成图像。研究者尝试了随机顺序方法,允许模型在每个步骤中预测任意位置的多个像素。这种方法在需要良好把握整体图像结构的任务中表现突出,在衡量文本与生成图像匹配度的GenEval 基准测试中取得显着优势。
Fluid 模型的实际表现印证了研究的价值。在扩展到105亿参数规模后,Fluid 在多个重要基准测试中均超越现有模型。值得注意的是,仅有3.69亿参数的小型Fluid 模型就达到了200亿参数量级的Parti 模型在MS-COCO 数据集上的FID 评分(7.23)。
这一研究成果表明,像Fluid 这样的自回归模型很可能成为扩散模型的有力替代者。与需要多次正向和反向传递的扩散模型相比,Fluid 仅需单次传递即可生成图像,这种效率优势在模型进一步扩展后将更加明显。
这项研究为文本到图像生成领域带来了新的可能性,Fluid模型的出现也标志着自回归模型在图像生成领域的崛起。未来,我们可以期待更多基于Fluid模型的应用和改进,进一步推动人工智能图像生成技术的进步。 Downcodes小编将持续关注该领域的最新进展,为读者带来更多精彩内容。