ディズニーの研究チームは、安定した拡散V1.2モデルを使用して、新しい画像圧縮法を開発し、より現実的な画像生成を低ビットレートで達成しました。 「コーデック」と呼ばれると、そのパフォーマンスは従来のJPEGおよびAV1コーデックを上回り、画像の詳細な回復とトレーニングコストで優れたパフォーマンスを発揮します。この研究では、量子化誤差と拡散モデルのノイズと巧妙に相関し、除去プロセスを使用して画像を再構築し、複数のデータセットでテストして検証します。
この調査では、新しい方法は画像の詳細の回復においてより良いパフォーマンスを発揮し、必要なトレーニングコストが大幅に削減されていることが示されています。研究者は、量子化エラー(画像圧縮のコアプロセス)はノイズ(拡散モデルのコアプロセス)に非常に似ているため、従来の量子化された画像は元の画像の騒々しいバージョンと見なすことができることを発見しました。このプロセスでは、拡散モデルの除去プロセスを使用して、ターゲットビットレートで画像を再構築します。
一連のテストで、ディズニーの新しいアプローチは、精度と詳細回復の両方で以前の画像圧縮技術を上回りました。研究者は、彼らのアプローチは拡散モデルの追加の微調整を必要とせず、既存の基本モデルを効果的に使用できると述べた。この新しいコーデックの利点は、現実感の再構築においてうまく機能することですが、場合によっては幻覚を経験する可能性があります。つまり、生成された画像に表示され、元の画像には存在しません。
この圧縮方法は、裁判所の証拠、顔認識データ、光学文字認識(OCR)スキャンなどの詳細に関連するいくつかのアプリケーションシナリオで、アート作品と通常の写真のプレゼンテーションに特定の影響を与えますが、幻覚現象の可能性。リスクがより重要です。現在、このテクノロジーはまだ初期段階にありますが、この分野での課題は、AIに強化された画像圧縮技術の開発により徐々に現れます。
画像ストレージをより効率的にするために、ディズニーチームは、長期的な探索の後、ついにこの新しいテクノロジーを立ち上げました。彼らはVimeo-90Kデータセットでトレーニングし、複数のデータセットでテストし、結果は、この方法が複数の画像品質メトリックの以前の方法よりも優れていることを示しました。最終的に、研究者はまた、ユーザー調査を通じて実際のアプリケーションにおける方法の優位性を確認しました。
論文:https://studios.disneyresearch.com/app/uploads/2024/09/lossy-image-compression--foundation-diffusion-models-supplementary-1.pdf
キーポイント:
1.ディズニーの新しいAI画像圧縮技術は、低ビットレートでより現実的な画像を生成できます。
2.この方法は、追加の微調整なしに、回復とトレーニングのコストを詳細に優れたパフォーマンスを発揮します。
3.効果は重要ですが、元の画像と一致しない詳細が生成される場合があり、「幻想」のリスクがあります。
ディズニーのAI画像圧縮技術には「幻想」などの問題はまだありますが、低ビットレートと効率的なトレーニングコストで高リアルな画像を生成する能力はすべて、その大きな可能性を示しています。将来的には、技術が成熟し続けるにつれて、この技術は画像ストレージと伝送の分野で重要な役割を果たすでしょう。