迪士尼研究团队利用Stable Diffusion V1.2模型开发出一种全新的图像压缩方法,并在低比特率下实现了更真实的图像生成。该方法被称为“编解码器”,其性能超越了传统的JPEG和AV1编解码器,在图像细节恢复和训练成本方面均表现出色。这项研究巧妙地将量化误差与扩散模型中的噪声关联起来,利用去噪过程重建图像,并在多个数据集上进行了测试和验证。
该研究表明,新方法在图像细节的恢复上表现得更为出色,同时所需的训练成本也大大降低。研究人员发现,量化误差(图像压缩中的核心过程)与噪声(扩散模型中的核心过程)非常相似,因此可以将传统量化图像视为原始图像的噪声版本。在这一过程中,利用扩散模型的去噪过程来重建目标比特率下的图像。
在一系列测试中,迪士尼的新方法在准确性和细节恢复方面都超越了之前的图像压缩技术。研究者们表示,他们的方法不需要对扩散模型进行额外的微调,能够有效地使用现有的基础模型。这种新型编解码器的优越性在于其在真实感的重建上表现优异,尽管在某些情况下,它可能会出现幻觉现象,也就是生成的图像中可能会出现并不存在于原始图像中的细节。
尽管这种压缩方法在艺术作品和普通照片的呈现上有一定的影响,但在一些关乎细节的应用场景中,比如法庭证据、面部识别数据和光学字符识别(OCR)扫描等,幻觉现象的潜在风险则显得更为重要。目前,尽管这一技术仍处于初级阶段,但随着 AI 增强图像压缩技术的发展,这一领域的挑战将会逐渐显现。
为了使图像存储更加高效,迪士尼团队经过长期探索,终于推出了这一新技术。他们在 Vimeo-90k 数据集上进行训练,并在多个数据集上进行了测试,结果显示该方法在多项图像质量指标上均优于以往的方法。最终,研究者们通过用户研究也证实了他们的方法在实际应用中的优越性。
论文:https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf
划重点:
1. 迪士尼的新 AI 图像压缩技术能够在更低比特率下生成更真实的图像。
2. 该方法在细节恢复和训练成本上表现优异,且无需额外微调。
3. 尽管效果显著,但可能会生成与原图不符的细节,存在 “幻觉” 风险。
迪士尼的这项AI图像压缩技术,虽然目前还存在“幻觉”等问题,但其在低比特率下生成高真实感图像的能力,以及高效的训练成本,都展现了其巨大的潜力。未来,随着技术的不断成熟,这项技术将在图像存储和传输领域发挥重要作用。