Tim peneliti Disney menggunakan model difusi v1.2 yang stabil untuk mengembangkan metode kompresi gambar baru dan mencapai pembuatan gambar yang lebih realistis pada laju bit rendah. Disebut "codec" dan kinerjanya melampaui codec tradisional JPEG dan AV1, berkinerja sangat baik dalam biaya pemulihan detail gambar dan pelatihan. Studi ini secara cerdik mengkorelasikan kesalahan kuantisasi dengan noise dalam model difusi, merekonstruksi gambar menggunakan proses denoising, dan menguji dan memvalidasinya pada beberapa dataset.
Studi ini menunjukkan bahwa metode baru berkinerja lebih baik dalam pemulihan detail gambar, sementara biaya pelatihan yang diperlukan sangat berkurang. Para peneliti menemukan bahwa kesalahan kuantisasi (proses inti dalam kompresi gambar) sangat mirip dengan noise (proses inti dalam model difusi), sehingga gambar terkuantisasi tradisional dapat dianggap sebagai versi bising dari gambar asli. Dalam proses ini, proses denoising dari model difusi digunakan untuk merekonstruksi gambar pada laju bit target.
Dalam serangkaian tes, pendekatan baru Disney melampaui teknik kompresi gambar sebelumnya dalam akurasi dan pemulihan detail. Para peneliti mengatakan pendekatan mereka tidak memerlukan penyempurnaan tambahan dari model difusi dan dapat secara efektif menggunakan model dasar yang ada. Keuntungan dari codec baru ini adalah bahwa ia berkinerja baik dalam rekonstruksi rasa realitas, meskipun dalam beberapa kasus mungkin mengalami halusinasi, yaitu, itu mungkin muncul dalam gambar yang dihasilkan dan tidak ada dalam detail gambar asli.
Meskipun metode kompresi ini memiliki dampak tertentu pada presentasi karya seni dan foto -foto biasa, dalam beberapa skenario aplikasi yang terkait dengan detail, seperti bukti pengadilan, data pengenalan wajah, dan pemindaian pengenalan karakter optik (OCR), potensi fenomena halusinasi. Risiko lebih penting. Saat ini, meskipun teknologi ini masih dalam tahap awal, tantangan di bidang ini secara bertahap akan muncul dengan pengembangan teknologi kompresi gambar yang ditingkatkan AI.
Untuk membuat penyimpanan gambar lebih efisien, tim Disney akhirnya meluncurkan teknologi baru ini setelah eksplorasi jangka panjang. Mereka dilatih pada dataset Vimeo-90K dan diuji pada beberapa dataset, dan hasilnya menunjukkan bahwa metode tersebut lebih baik daripada metode sebelumnya pada beberapa metrik kualitas gambar. Pada akhirnya, para peneliti juga mengkonfirmasi keunggulan metode mereka dalam aplikasi praktis melalui penelitian pengguna.
Kertas: https://studios.disneyresearch.com/app/uploads/2024/09/lossy-image-compression-with-foundation-diffusion-models-supplementary-1.pdf
Poin -Poin Kunci:
1. Teknologi kompresi gambar AI Disney yang baru dapat menghasilkan gambar yang lebih realistis di bitrate yang lebih rendah.
2. Metode ini berkinerja sangat baik dalam detail biaya pemulihan dan pelatihan tanpa penyempurnaan tambahan.
3. Meskipun efeknya signifikan, detail yang tidak cocok dengan gambar asli dapat dihasilkan, dan ada risiko "ilusi".
Meskipun teknologi kompresi gambar AI Disney masih memiliki masalah seperti "ilusi", kemampuannya untuk menghasilkan gambar realistis tinggi pada laju bit rendah dan biaya pelatihan yang efisien semuanya menunjukkan potensi yang sangat besar. Di masa depan, ketika teknologi terus matang, teknologi ini akan memainkan peran penting dalam bidang penyimpanan dan transmisi gambar.