迪士尼研究團隊利用Stable Diffusion V1.2模型開發出一種全新的圖像壓縮方法,並在低比特率下實現了更真實的圖像生成。該方法被稱為“編解碼器”,其性能超越了傳統的JPEG和AV1編解碼器,在圖像細節恢復和訓練成本方面均表現出色。這項研究巧妙地將量化誤差與擴散模型中的噪聲關聯起來,利用去噪過程重建圖像,並在多個數據集上進行了測試和驗證。
該研究表明,新方法在圖像細節的恢復上表現得更為出色,同時所需的訓練成本也大大降低。研究人員發現,量化誤差(圖像壓縮中的核心過程)與噪聲(擴散模型中的核心過程)非常相似,因此可以將傳統量化圖像視為原始圖像的噪聲版本。在這一過程中,利用擴散模型的去噪過程來重建目標比特率下的圖像。
在一系列測試中,迪士尼的新方法在準確性和細節恢復方面都超越了之前的圖像壓縮技術。研究者們表示,他們的方法不需要對擴散模型進行額外的微調,能夠有效地使用現有的基礎模型。這種新型編解碼器的優越性在於其在真實感的重建上表現優異,儘管在某些情況下,它可能會出現幻覺現象,也就是生成的圖像中可能會出現並不存在於原始圖像中的細節。
儘管這種壓縮方法在藝術作品和普通照片的呈現上有一定的影響,但在一些關乎細節的應用場景中,比如法庭證據、面部識別數據和光學字符識別(OCR)掃描等,幻覺現象的潛在風險則顯得更為重要。目前,儘管這一技術仍處於初級階段,但隨著AI 增強圖像壓縮技術的發展,這一領域的挑戰將會逐漸顯現。
為了使圖像存儲更加高效,迪士尼團隊經過長期探索,終於推出了這一新技術。他們在Vimeo-90k 數據集上進行訓練,並在多個數據集上進行了測試,結果顯示該方法在多項圖像質量指標上均優於以往的方法。最終,研究者們通過用戶研究也證實了他們的方法在實際應用中的優越性。
論文:https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf
劃重點:
1. 迪士尼的新AI 圖像壓縮技術能夠在更低比特率下生成更真實的圖像。
2. 該方法在細節恢復和訓練成本上表現優異,且無需額外微調。
3. 儘管效果顯著,但可能會生成與原圖不符的細節,存在“幻覺” 風險。
迪士尼的這項AI圖像壓縮技術,雖然目前還存在“幻覺”等問題,但其在低比特率下生成高真實感圖像的能力,以及高效的訓練成本,都展現了其巨大的潛力。未來,隨著技術的不斷成熟,這項技術將在圖像存儲和傳輸領域發揮重要作用。