L'équipe de recherche Disney a utilisé le modèle stable de diffusion v1.2 pour développer une nouvelle méthode de compression d'image et a réalisé une génération d'images plus réaliste à faible débit binaire. Appelé un "codec" et ses performances dépassent les codecs JPEG traditionnels et AV1, se comportant parfaitement dans les coûts de récupération des détails de l'image et de formation. Cette étude corrèle intelligemment les erreurs de quantification avec le bruit dans le modèle de diffusion, reconstruit les images à l'aide du processus de débraillé et les teste et les valide sur plusieurs ensembles de données.
L'étude montre que la nouvelle méthode fonctionne mieux dans la récupération des détails de l'image, tandis que les coûts de formation requis sont considérablement réduits. Les chercheurs ont constaté que l'erreur de quantification (le processus central dans la compression d'image) est très similaire au bruit (le processus central du modèle de diffusion), de sorte que les images quantifiées traditionnelles peuvent être considérées comme une version bruyante de l'image d'origine. Dans ce processus, le processus de débrouillage du modèle de diffusion est utilisé pour reconstruire l'image à la vitesse binaire cible.
Dans une série de tests, la nouvelle approche de Disney a dépassé les techniques de compression d'images précédentes en précision et en récupération des détails. Les chercheurs ont déclaré que leur approche ne nécessite pas de réglage fin supplémentaire du modèle de diffusion et peut utiliser efficacement les modèles de base existants. L'avantage de ce nouveau codec est qu'il fonctionne bien dans la reconstruction du sens de la réalité, bien que dans certains cas, il puisse ressentir des hallucinations, c'est-à-dire qu'elle peut apparaître dans l'image générée et n'existe pas dans l'image d'origine.
Bien que cette méthode de compression ait un certain impact sur la présentation des œuvres d'art et des photos ordinaires, dans certains scénarios d'application liés à des détails, tels que les preuves du tribunal, les données de reconnaissance faciale et la numérisation de la reconnaissance des caractères optiques (OCR), le potentiel des phénomènes d'hallucination. Le risque est plus important. À l'heure actuelle, bien que cette technologie en soit encore à ses débuts, les défis dans ce domaine émergeront progressivement avec le développement de la technologie de compression d'images améliorée par l'IA.
Afin de rendre le stockage d'images plus efficace, l'équipe Disney a finalement lancé cette nouvelle technologie après une exploration à long terme. Ils se sont entraînés sur l'ensemble de données VIMEO-90K et ont testé sur plusieurs ensembles de données, et les résultats ont montré que la méthode était meilleure que les méthodes précédentes sur plusieurs mesures de qualité d'image. En fin de compte, les chercheurs ont également confirmé la supériorité de leur méthode dans les applications pratiques grâce à la recherche sur les utilisateurs.
Document: https://studios.disneyresearch.com/app/uploads/2024/09/lossy-image-compression-with-foundation-diffusion-models-supplementary-1.pdf
Points clés:
1. La nouvelle technologie de compression d'images d'IA de Disney peut générer des images plus réalistes à des débits binaires inférieurs.
2. Cette méthode fonctionne parfaitement en détail les frais de récupération et de formation sans réglage supplémentaire.
3. Bien que l'effet soit significatif, les détails qui ne correspondent pas à l'image d'origine peuvent être générés et il existe un risque d '"illusion".
Bien que la technologie de compression d'images d'IA de Disney ait toujours des problèmes tels que «l'illusion», sa capacité à générer des images élevés réalistes à faible taux de bit et des coûts de formation efficaces ont tous montré son énorme potentiel. À l'avenir, alors que la technologie continue de mûrir, cette technologie jouera un rôle important dans le domaine du stockage et de la transmission d'images.