Downcodes小编获悉,迪士尼研究团队发布了一种基于Stable Diffusion V1.2模型的全新图像压缩方法,该方法在低比特率下也能生成高真实感图像,其性能超越了现有JPEG和AV1编解码器。这项突破性技术被称为“编解码器”,它巧妙地利用了扩散模型的去噪过程,将图像压缩中的量化误差视为噪声,从而实现高效的图像重建。该方法无需对模型进行额外微调,极大降低了训练成本,并在多个数据集测试中表现出色。
该研究表明,新方法在图像细节的恢复上表现得更为出色,同时所需的训练成本也大大降低。研究人员发现,量化误差(图像压缩中的核心过程)与噪声(扩散模型中的核心过程)非常相似,因此可以将传统量化图像视为原始图像的噪声版本。在这一过程中,利用扩散模型的去噪过程来重建目标比特率下的图像。
在一系列测试中,迪士尼的新方法在准确性和细节恢复方面都超越了之前的图像压缩技术。研究者们表示,他们的方法不需要对扩散模型进行额外的微调,能够有效地使用现有的基础模型。这种新型编解码器的优越性在于其在真实感的重建上表现优异,尽管在某些情况下,它可能会出现幻觉现象,也就是生成的图像中可能会出现并不存在于原始图像中的细节。
尽管这种压缩方法在艺术作品和普通照片的呈现上有一定的影响,但在一些关乎细节的应用场景中,比如法庭证据、面部识别数据和光学字符识别(OCR)扫描等,幻觉现象的潜在风险则显得更为重要。目前,尽管这一技术仍处于初级阶段,但随着 AI 增强图像压缩技术的发展,这一领域的挑战将会逐渐显现。
为了使图像存储更加高效,迪士尼团队经过长期探索,终于推出了这一新技术。他们在 Vimeo-90k 数据集上进行训练,并在多个数据集上进行了测试,结果显示该方法在多项图像质量指标上均优于以往的方法。最终,研究者们通过用户研究也证实了他们的方法在实际应用中的优越性。
论文:https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf
迪士尼这项基于Stable Diffusion的图像压缩技术,展现了AI在图像处理领域的巨大潜力,虽然存在幻觉等挑战,但其在图像质量和效率上的提升是显著的。未来,随着技术的不断完善,这项技术有望在更多领域得到应用,为图像存储和传输带来革命性的改变。期待后续研究能进一步解决幻觉问题,使其在更多对细节要求苛刻的场景中发挥作用。