El editor de Downcodes se enteró de que el equipo de investigación de Disney ha lanzado un nuevo método de compresión de imágenes basado en el modelo Stable Diffusion V1.2. Este método puede generar imágenes de alto realismo a bajas velocidades de bits y su rendimiento supera a los códecs JPEG y AV1 existentes. descifrador. Esta innovadora tecnología, denominada "códec", utiliza inteligentemente el proceso de eliminación de ruido del modelo de difusión para tratar los errores de cuantificación en la compresión de imágenes como ruido, lo que permite una reconstrucción eficiente de la imagen. Este método no requiere ajustes adicionales del modelo, reduce en gran medida los costos de capacitación y funciona bien en múltiples pruebas de conjuntos de datos.
Este estudio muestra que el nuevo método funciona mejor en la restauración de detalles de la imagen y el costo de capacitación requerido también se reduce considerablemente. Los investigadores descubrieron que el error de cuantificación (un proceso central en la compresión de imágenes) es tan similar al ruido (un proceso central en los modelos de difusión) que una imagen tradicionalmente cuantificada puede considerarse como una versión ruidosa de la imagen original. En este proceso, se utiliza el proceso de eliminación de ruido del modelo de difusión para reconstruir la imagen a la velocidad de bits objetivo.
En una serie de pruebas, el nuevo enfoque de Disney superó las técnicas anteriores de compresión de imágenes tanto en precisión como en recuperación de detalles. Los investigadores dicen que su método no requiere ajustes adicionales del modelo de difusión y puede utilizar eficazmente los modelos base existentes. La ventaja de este nuevo códec radica en su excelente rendimiento en la reconstrucción fotorrealista, aunque en algunos casos puede sufrir alucinaciones, es decir, pueden aparecer artefactos en la imagen generada que no estaban presentes en los detalles de la imagen original.
Aunque este método de compresión tiene cierto impacto en la representación de obras de arte y fotografías comunes, en algunos escenarios de aplicación donde los detalles son importantes, como evidencia forense, datos de reconocimiento facial y escaneo de reconocimiento óptico de caracteres (OCR), el potencial de alucinaciones El riesgo se vuelve más importante. Actualmente, aunque esta tecnología aún está en su infancia, con el desarrollo de la tecnología de compresión de imágenes mejorada por IA, gradualmente surgirán desafíos en este campo.
Para hacer que el almacenamiento de imágenes sea más eficiente, el equipo de Disney finalmente lanzó esta nueva tecnología después de una exploración a largo plazo. Se entrenaron con el conjunto de datos Vimeo-90k y probaron en múltiples conjuntos de datos, y los resultados mostraron que el método superó a los métodos anteriores en múltiples métricas de calidad de imagen. Finalmente, los investigadores también confirmaron la superioridad de su método en aplicaciones prácticas mediante la investigación de usuarios.
Artículo: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf
La tecnología de compresión de imágenes de Disney basada en Difusión Estable demuestra el enorme potencial de la IA en el campo del procesamiento de imágenes. Aunque existen desafíos como la ilusión, su mejora en la calidad y eficiencia de la imagen es significativa. En el futuro, con la mejora continua de la tecnología, se espera que esta tecnología se aplique en más campos, trayendo cambios revolucionarios al almacenamiento y transmisión de imágenes. Se espera que la investigación de seguimiento pueda resolver aún más el problema de la ilusión y hacerla útil en escenas que exigen más detalles.