El equipo de investigación de Disney utilizó el modelo de difusión estable V1.2 para desarrollar un nuevo método de compresión de imágenes y logró una generación de imágenes más realista a baja velocidad de bits. Llamado "Códec" y su rendimiento supera los códecs tradicionales de JPEG y AV1, realizando excelentemente en los costos de recuperación y capacitación de detalles de imágenes. Este estudio correlaciona hábilmente los errores de cuantización con el ruido en el modelo de difusión, reconstruye las imágenes utilizando el proceso de renovación y los prueba y los valida en múltiples conjuntos de datos.
El estudio muestra que el nuevo método funciona mejor en la recuperación de los detalles de la imagen, mientras que los costos de capacitación requeridos se reducen considerablemente. Los investigadores encontraron que el error de cuantización (el proceso central en la compresión de la imagen) es muy similar al ruido (el proceso central en el modelo de difusión), por lo que las imágenes cuantiadas tradicionales pueden considerarse como una versión ruidosa de la imagen original. En este proceso, el proceso de renovación del modelo de difusión se utiliza para reconstruir la imagen a la velocidad de bits objetivo.
En una serie de pruebas, el nuevo enfoque de Disney superó las técnicas previas de compresión de imágenes en precisión y recuperación de detalles. Los investigadores dijeron que su enfoque no requiere ajuste fino adicional del modelo de difusión y puede usar efectivamente los modelos básicos existentes. La ventaja de este nuevo códec es que funciona bien en la reconstrucción del sentido de la realidad, aunque en algunos casos puede experimentar alucinaciones, es decir, puede aparecer en la imagen generada y no existir en la imagen original.
Aunque este método de compresión tiene un cierto impacto en la presentación de obras de arte y fotos ordinarias, en algunos escenarios de aplicación relacionados con detalles, como evidencia de la corte, datos de reconocimiento facial y escaneo de reconocimiento de caracteres ópticos (OCR), el potencial de los fenómenos de alucinación. El riesgo es más importante. En la actualidad, aunque esta tecnología todavía está en sus primeras etapas, los desafíos en este campo surgirán gradualmente con el desarrollo de la tecnología de compresión de imágenes mejorada con AI.
Para hacer que el almacenamiento de imágenes sea más eficiente, el equipo de Disney finalmente lanzó esta nueva tecnología después de la exploración a largo plazo. Entrenaron en el conjunto de datos Vimeo-90K y probaron en múltiples conjuntos de datos, y los resultados mostraron que el método era mejor que los métodos anteriores en múltiples métricas de calidad de imagen. En última instancia, los investigadores también confirmaron la superioridad de su método en aplicaciones prácticas a través de la investigación de usuarios.
Documento: https://studios.disneyresearch.com/app/uploads/2024/09/lossy-image-compression-with-foundation-diffusion-models-suplementary-1.pdf
Puntos clave:
1. La nueva tecnología de compresión de imagen de IA de Disney puede generar imágenes más realistas en tasas de bits más bajas.
2. Este método funciona excelentemente en los costos de recuperación y capacitación de detalles sin ajuste fino adicional.
3. Aunque el efecto es significativo, se pueden generar detalles que no coinciden con la imagen original, y existe un riesgo de "ilusión".
Aunque la tecnología de compresión de imágenes de IA de Disney todavía tiene problemas como "ilusión", su capacidad para generar imágenes de alta realista a una velocidad de bits baja y costos de entrenamiento eficientes ha mostrado su enorme potencial. En el futuro, a medida que la tecnología continúa madurando, esta tecnología desempeñará un papel importante en el campo del almacenamiento y transmisión de imágenes.