Das Disney -Forschungsteam verwendete das stabile Diffusions -V1.2 -Modell, um eine neue Bildkomprimierungsmethode zu entwickeln, und erreichte realistischere Bildgenerierung bei niedriger Bitrate. Als "Codec" bezeichnet und seine Leistung übertrifft traditionelle JPEG- und AV1 -Codecs und führt hervorragend in Bilddetail -Erholung und Schulungskosten ab. Diese Studie korreliert geschickt Quantisierungsfehler mit Rauschen im Diffusionsmodell, rekonstruiert Bilder mithilfe des Denoising -Prozesses und testet und validiert sie auf mehreren Datensätzen.
Die Studie zeigt, dass die neue Methode bei der Wiederherstellung von Bilddetails besser abschneidet, während die erforderlichen Schulungskosten stark reduziert werden. Die Forscher fanden heraus, dass Quantisierungsfehler (der Kernprozess in der Bildkomprimierung) dem Rauschen sehr ähnlich ist (der Kernprozess im Diffusionsmodell), sodass herkömmliche quantisierte Bilder als verrückte Version des Originalbildes angesehen werden können. In diesem Prozess wird der Denoisingprozess des Diffusionsmodells verwendet, um das Bild mit der Zielbitrate zu rekonstruieren.
In einer Reihe von Tests übertraf der neue Ansatz von Disney frühere Bildkomprimierungstechniken sowohl bei Genauigkeit als auch detaillierter Wiederherstellung. Die Forscher sagten, ihr Ansatz erfordere keine zusätzliche Feinabstimmung des Diffusionsmodells und kann vorhandene Grundmodelle effektiv verwenden. Der Vorteil dieses neuen Codec ist, dass sie bei der Rekonstruktion des Realitätssinns eine gute Leistung erbringt, obwohl es in einigen Fällen Halluzinationen erleben kann, dh es kann im erzeugten Bild erscheinen und im Originalbild nicht existieren.
Obwohl diese Komprimierungsmethode einen gewissen Einfluss auf die Darstellung von Kunstwerken und normalen Fotos hat, in einigen Anwendungsszenarien zu Details wie Gerichtsnachweisen, Gesichtserkennungsdaten und optischer Charaktererkennung (OCR), das Potenzial der Halluzinationsphänomene. Risiko ist wichtiger. Obwohl sich diese Technologie noch in den frühen Stadien befindet, werden sich die Herausforderungen in diesem Bereich allmählich mit der Entwicklung der AI-verbesserten Bildkomprimierungstechnologie ergeben.
Um die Bildspeicherung effizienter zu gestalten, hat das Disney-Team diese neue Technologie nach langfristiger Erkundung schließlich gestartet. Sie trainierten im Vimeo-90K-Datensatz und testeten auf mehreren Datensätzen. Die Ergebnisse zeigten, dass die Methode besser als frühere Methoden zu mehreren Bildqualitätsmetriken war. Letztendlich bestätigten die Forscher auch die Überlegenheit ihrer Methode in praktischen Anwendungen durch Benutzerforschung.
Papier: https://studios.disneyresearch.com/app/uploads/2024/09/lossy-image-compression-with-foundation-diffusion-models-supplementary-1.pdf
Schlüsselpunkte:
1. Die neue KI -Image -Komprimierungstechnologie von Disney kann bei niedrigeren Bitraten realistischere Bilder erzeugen.
2. Diese Methode ist ausführlich in Details erholt und die Schulungskosten ohne zusätzliche Feinabstimmung.
3. Obwohl der Effekt signifikant ist, können Details, die nicht mit dem Originalbild übereinstimmen, generiert werden, und es besteht das Risiko einer "Illusion".
Obwohl die KI-Image-Komprimierungstechnologie von Disney immer noch Probleme wie "Illusion" aufweist, hat seine Fähigkeit, hochrealistische Bilder mit niedriger Bitrate und effizienten Trainingskosten zu erzeugen, ihr großes Potenzial gezeigt. In Zukunft wird diese Technologie in Zukunft eine wichtige Rolle im Bereich der Bildspeicherung und -übertragung spielen.