Editor Downcodes mengetahui bahwa tim peneliti Disney telah merilis metode kompresi gambar baru berdasarkan model Stable Diffusion V1.2. Metode ini dapat menghasilkan gambar realisme tinggi dengan kecepatan bit rendah, dan kinerjanya melampaui codec JPEG dan AV1 yang ada. dekoder. Teknologi terobosan ini, yang disebut "codec", secara cerdik memanfaatkan proses denoising pada model difusi untuk memperlakukan kesalahan kuantisasi dalam kompresi gambar sebagai noise, sehingga memungkinkan rekonstruksi gambar yang efisien. Metode ini tidak memerlukan penyesuaian model tambahan, sangat mengurangi biaya pelatihan, dan berkinerja baik dalam beberapa pengujian kumpulan data.
Studi ini menunjukkan bahwa metode baru ini memiliki kinerja lebih baik dalam memulihkan detail gambar, dan biaya pelatihan yang diperlukan juga jauh berkurang. Para peneliti menemukan bahwa kesalahan kuantisasi (proses inti dalam kompresi gambar) sangat mirip dengan noise (proses inti dalam model difusi) sehingga gambar yang dikuantisasi secara tradisional dapat dianggap sebagai versi noise dari gambar asli. Dalam proses ini, proses denoising model difusi digunakan untuk merekonstruksi gambar pada bit rate target.
Dalam serangkaian pengujian, pendekatan baru Disney melampaui teknik kompresi gambar sebelumnya dalam hal akurasi dan pemulihan detail. Para peneliti mengatakan metode mereka tidak memerlukan penyesuaian tambahan pada model difusi dan dapat secara efektif menggunakan model dasar yang ada. Keuntungan dari codec baru ini terletak pada kinerjanya yang sangat baik dalam rekonstruksi fotorealistik, meskipun dalam beberapa kasus mungkin mengalami halusinasi, yaitu artefak mungkin muncul pada gambar yang dihasilkan yang tidak ada dalam detail gambar aslinya.
Meskipun metode kompresi ini memiliki dampak tertentu pada rendering karya seni dan foto biasa, dalam beberapa skenario aplikasi yang detailnya penting, seperti bukti forensik, data pengenalan wajah, dan pemindaian pengenalan karakter optik (OCR), potensi terjadinya halusinasi Risiko menjadi lebih penting. Saat ini, meskipun teknologi ini masih dalam tahap awal, dengan berkembangnya teknologi kompresi gambar yang disempurnakan dengan AI, tantangan di bidang ini secara bertahap akan muncul.
Agar penyimpanan gambar lebih efisien, tim Disney akhirnya meluncurkan teknologi baru ini setelah eksplorasi jangka panjang. Mereka melatih kumpulan data Vimeo-90k dan menguji beberapa kumpulan data, dan hasilnya menunjukkan bahwa metode tersebut mengungguli metode sebelumnya dalam beberapa metrik kualitas gambar. Terakhir, para peneliti juga menegaskan keunggulan metode mereka dalam aplikasi praktis melalui riset pengguna.
Makalah: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Additional-1.pdf
Teknologi kompresi gambar Disney berdasarkan Difusi Stabil menunjukkan potensi besar AI di bidang pemrosesan gambar. Meskipun terdapat tantangan seperti ilusi, peningkatan kualitas dan efisiensi gambar sangatlah signifikan. Di masa depan, dengan kemajuan teknologi yang berkelanjutan, teknologi ini diharapkan dapat diterapkan di lebih banyak bidang, membawa perubahan revolusioner pada penyimpanan dan transmisi gambar. Penelitian selanjutnya diharapkan dapat lebih memecahkan masalah ilusi dan menjadikannya berguna dalam adegan yang menuntut lebih banyak detail.