L'éditeur de Downcodes a appris que l'équipe de recherche de Disney avait publié une nouvelle méthode de compression d'image basée sur le modèle Stable Diffusion V1.2. Cette méthode peut générer des images de haut réalisme à faible débit et ses performances surpassent les codecs JPEG et AV1 existants. décodeur. Cette technologie révolutionnaire, appelée « codec », utilise intelligemment le processus de débruitage du modèle de diffusion pour traiter les erreurs de quantification dans la compression d'image comme du bruit, permettant ainsi une reconstruction efficace de l'image. Cette méthode ne nécessite pas d'ajustement supplémentaire du modèle, réduit considérablement les coûts de formation et fonctionne bien dans plusieurs tests d'ensembles de données.
Cette étude montre que la nouvelle méthode est plus efficace dans la restauration des détails de l'image et que le coût de formation requis est également considérablement réduit. Les chercheurs ont découvert que l’erreur de quantification (un processus essentiel dans la compression d’images) est si similaire au bruit (un processus essentiel dans les modèles de diffusion) qu’une image traditionnellement quantifiée peut être considérée comme une version bruyante de l’image originale. Dans ce processus, le processus de débruitage du modèle de diffusion est utilisé pour reconstruire l'image au débit binaire cible.
Lors d'une série de tests, la nouvelle approche de Disney a surpassé les techniques de compression d'images précédentes en termes de précision et de récupération des détails. Les chercheurs affirment que leur méthode ne nécessite pas d’ajustement supplémentaire du modèle de diffusion et peut utiliser efficacement les modèles de base existants. L'avantage de ce nouveau codec réside dans ses excellentes performances en matière de reconstruction photoréaliste, même si dans certains cas, il peut souffrir d'hallucinations, c'est-à-dire que des artefacts peuvent apparaître dans l'image générée qui n'étaient pas présents dans les détails de l'image originale.
Bien que cette méthode de compression ait un certain impact sur le rendu des œuvres d'art et des photos ordinaires, dans certains scénarios d'application où les détails sont importants, comme les preuves médico-légales, les données de reconnaissance faciale et la numérisation par reconnaissance optique de caractères (OCR), le potentiel d'hallucinations Le risque devient plus important. Actuellement, bien que cette technologie en soit encore à ses balbutiements, avec le développement de la technologie de compression d’images améliorée par l’IA, des défis dans ce domaine apparaîtront progressivement.
Afin de rendre le stockage des images plus efficace, l'équipe Disney a finalement lancé cette nouvelle technologie après une exploration à long terme. Ils se sont entraînés sur l'ensemble de données Vimeo-90k et ont testé plusieurs ensembles de données, et les résultats ont montré que la méthode surpassait les méthodes précédentes sur plusieurs mesures de qualité d'image. Enfin, les chercheurs ont également confirmé la supériorité de leur méthode dans les applications pratiques grâce à la recherche sur les utilisateurs.
Article : https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf
La technologie de compression d'image de Disney basée sur la diffusion stable démontre l'énorme potentiel de l'IA dans le domaine du traitement d'image. Bien qu'il existe des défis tels que l'illusion, son amélioration de la qualité et de l'efficacité de l'image est significative. À l'avenir, avec l'amélioration continue de la technologie, cette technologie devrait être appliquée dans davantage de domaines, apportant des changements révolutionnaires dans le stockage et la transmission des images. On s'attend à ce que des recherches ultérieures puissent résoudre davantage le problème de l'illusion et la rendre utile dans des scènes plus exigeantes en détails.