Der Herausgeber von Downcodes erfuhr, dass das Disney-Forschungsteam eine neue Bildkomprimierungsmethode basierend auf dem Stable Diffusion V1.2-Modell veröffentlicht hat. Diese Methode kann hochrealistische Bilder bei niedrigen Bitraten erzeugen und ihre Leistung übertrifft bestehende JPEG- und AV1-Codecs. Decoder. Diese bahnbrechende Technologie, „Codec“ genannt, nutzt geschickt den Entrauschungsprozess des Diffusionsmodells, um Quantisierungsfehler bei der Bildkomprimierung als Rauschen zu behandeln und so eine effiziente Bildrekonstruktion zu ermöglichen. Diese Methode erfordert keine zusätzliche Feinabstimmung des Modells, reduziert die Trainingskosten erheblich und bietet eine gute Leistung bei Tests mit mehreren Datensätzen.
Diese Studie zeigt, dass die neue Methode bei der Wiederherstellung von Bilddetails eine bessere Leistung erbringt und auch der erforderliche Schulungsaufwand erheblich reduziert wird. Die Forscher fanden heraus, dass Quantisierungsfehler (ein Kernprozess bei der Bildkomprimierung) dem Rauschen (ein Kernprozess bei Diffusionsmodellen) so ähnlich sind, dass man sich ein traditionell quantisiertes Bild als eine verrauschte Version des Originalbilds vorstellen kann. In diesem Prozess wird der Entrauschungsprozess des Diffusionsmodells verwendet, um das Bild mit der Zielbitrate zu rekonstruieren.
In einer Reihe von Tests übertraf Disneys neuer Ansatz frühere Bildkomprimierungstechniken sowohl hinsichtlich der Genauigkeit als auch der Detailwiederherstellung. Die Forscher sagen, dass ihre Methode keine zusätzliche Feinabstimmung des Diffusionsmodells erfordert und bestehende Basismodelle effektiv nutzen kann. Der Vorteil dieses neuen Codecs liegt in seiner hervorragenden Leistung bei der fotorealistischen Rekonstruktion, obwohl es in einigen Fällen zu Halluzinationen kommen kann, das heißt, dass im generierten Bild Artefakte auftreten können, die im Originalbild nicht vorhanden waren.
Obwohl diese Komprimierungsmethode einen gewissen Einfluss auf die Darstellung von Kunstwerken und gewöhnlichen Fotos hat, besteht in einigen Anwendungsszenarien, in denen Details wichtig sind, wie z. B. forensische Beweise, Gesichtserkennungsdaten und Scannen mit optischer Zeichenerkennung (OCR), die Möglichkeit von Halluzinationen Risiko wird wichtiger. Obwohl diese Technologie derzeit noch in den Kinderschuhen steckt, werden sich mit der Entwicklung der KI-gestützten Bildkomprimierungstechnologie nach und nach Herausforderungen in diesem Bereich ergeben.
Um die Bildspeicherung effizienter zu gestalten, hat das Disney-Team diese neue Technologie nach langfristiger Erkundung endlich auf den Markt gebracht. Sie trainierten mit dem Vimeo-90k-Datensatz und testeten ihn mit mehreren Datensätzen. Die Ergebnisse zeigten, dass die Methode frühere Methoden in Bezug auf mehrere Bildqualitätsmetriken übertraf. Schließlich bestätigten die Forscher auch durch Nutzerforschung die Überlegenheit ihrer Methode in der praktischen Anwendung.
Papier: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf
Die auf Stable Diffusion basierende Bildkomprimierungstechnologie von Disney zeigt das enorme Potenzial der KI im Bereich der Bildverarbeitung. Obwohl es Herausforderungen wie Illusion gibt, ist die Verbesserung der Bildqualität und Effizienz erheblich. Mit der kontinuierlichen Verbesserung der Technologie wird erwartet, dass diese Technologie in Zukunft in mehr Bereichen eingesetzt wird und revolutionäre Veränderungen bei der Bildspeicherung und -übertragung mit sich bringt. Es wird erwartet, dass Folgeforschung das Problem der Illusion weiter lösen und sie in Szenen mit höherem Detaillierungsaufwand nützlich machen kann.