Downcodes の編集者は、Disney の研究チームが Stable Diffusion V1.2 モデルに基づいた新しい画像圧縮方式をリリースしたことを知りました。この方式は、低ビット レートで高リアルな画像を生成でき、そのパフォーマンスは既存の JPEG および AV1 コーデックを上回っています。デコーダ。 「コーデック」と呼ばれるこの画期的なテクノロジーは、拡散モデルのノイズ除去プロセスを巧みに利用して、画像圧縮時の量子化誤差をノイズとして扱い、効率的な画像再構成を可能にします。この方法では、モデルをさらに微調整する必要がなく、トレーニング コストが大幅に削減され、複数のデータセット テストで良好なパフォーマンスを発揮します。
この研究は、新しい方法が画像の詳細を復元する際のパフォーマンスが向上し、必要なトレーニング コストも大幅に削減されることを示しています。研究者らは、量子化誤差 (画像圧縮の中核プロセス) がノイズ (拡散モデルの中核プロセス) に非常に似ているため、伝統的に量子化された画像は元の画像のノイズが多いバージョンと考えることができることを発見しました。このプロセスでは、拡散モデルのノイズ除去プロセスを使用して、ターゲット ビット レートで画像を再構成します。
一連のテストにおいて、ディズニーの新しいアプローチは、精度と細部の復元の両方で以前の画像圧縮技術を上回りました。研究者らは、この手法では拡散モデルをさらに微調整する必要がなく、既存の基本モデルを効果的に使用できると述べている。この新しいコーデックの利点は、フォトリアリスティックな再構成における優れたパフォーマンスにありますが、場合によっては幻覚が発生する可能性があります。つまり、元の画像の詳細には存在しなかったアーティファクトが生成された画像に現れる可能性があります。
この圧縮方法は芸術作品や通常の写真のレンダリングに一定の影響を与えますが、法医学証拠、顔認識データ、光学式文字認識 (OCR) スキャンなどの詳細が重要な一部のアプリケーション シナリオでは、幻覚が発生する可能性があります。リスクがより重要になります。現時点では、この技術はまだ初期段階にありますが、AI を活用した画像圧縮技術の開発により、この分野の課題は徐々に明らかになります。
画像の保存をより効率的にするために、ディズニー チームは長期にわたる調査を経て、ついにこの新しいテクノロジーを発表しました。 Vimeo-90k データセットでトレーニングし、複数のデータセットでテストした結果、この方法が複数の画質指標において以前の方法よりも優れていることがわかりました。最後に、研究者らはユーザー調査を通じて、実用化における自分たちの手法の優位性も確認しました。
論文: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf
ディズニーの安定拡散に基づく画像圧縮技術は、画像処理分野における AI の大きな可能性を示しています。錯覚などの課題はありますが、画質と効率の向上は顕著です。今後、技術の継続的な改良により、この技術はより多くの分野に適用され、画像の保存と送信に革命的な変化をもたらすことが期待されます。今後の研究により、錯視の問題がさらに解決され、より詳細な要求が要求されるシーンで活用できるようになることが期待されています。