Downcodes小編獲悉,迪士尼研究團隊發布了一種基於Stable Diffusion V1.2模型的全新影像壓縮方法,該方法在低位元率下也能產生高真實感影像,其性能超越了現有JPEG和AV1編解碼器。這項突破性技術被稱為“編解碼器”,它巧妙地利用了擴散模型的去噪過程,將影像壓縮中的量化誤差視為噪聲,從而實現高效的影像重建。此方法無需對模型進行額外微調,極大降低了訓練成本,並在多個資料集測試中表現出色。
該研究表明,新方法在影像細節的恢復上表現得更為出色,同時所需的訓練成本也大大降低。研究人員發現,量化誤差(影像壓縮中的核心過程)與雜訊(擴散模型中的核心過程)非常相似,因此可以將傳統量化影像視為原始影像的雜訊版本。在這過程中,利用擴散模型的去雜訊過程來重建目標位元率下的影像。
在一系列測試中,迪士尼的新方法在準確性和細節恢復方面都超越了先前的影像壓縮技術。研究者表示,他們的方法不需要對擴散模型進行額外的微調,能夠有效地使用現有的基礎模型。這種新型編解碼器的優越性在於其在真實感的重建上表現優異,儘管在某些情況下,它可能會出現幻覺現象,也就是生成的圖像中可能會出現並不存在於原始圖像中的細節。
儘管這種壓縮方法在藝術作品和普通照片的呈現上有一定的影響,但在一些關乎細節的應用場景中,例如法庭證據、面部識別數據和光學字符識別(OCR)掃描等,幻覺現象的潛在風險則顯得更為重要。目前,儘管這項技術仍處於初級階段,但隨著AI 增強影像壓縮技術的發展,這一領域的挑戰將會逐漸顯現。
為了讓影像儲存更加高效,迪士尼團隊經過長期探索,終於推出了這項新技術。他們在Vimeo-90k 資料集上進行訓練,並在多個資料集上進行了測試,結果顯示該方法在多項影像品質指標上均優於以往的方法。最終,研究者們透過使用者研究也證實了他們的方法在實際應用上的優越性。
論文:https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf
迪士尼這項基於Stable Diffusion的影像壓縮技術,展現了AI在影像處理領域的巨大潛力,雖然存在幻覺等挑戰,但其在影像品質和效率上的提升是顯著的。未來,隨著技術的不斷完善,這項技術有望在更多領域得到應用,為影像儲存和傳輸帶來革命性的改變。期待後續研究能進一步解決幻覺問題,使其在更多對細節要求苛刻的場景中發揮作用。