En los últimos años, las tecnologías de generación de imágenes de IA están cambiando con cada día que pasa, pero los altos costos informáticos han limitado su popularidad. Este artículo presenta un nuevo tipo de texto llamado SANA al marco de la imagen. SANA puede generar imágenes de alta definición súper alta con una resolución de 4096 × 4096 en la GPU de las computadoras portátiles ordinarias, y su velocidad está mucho más allá de la tecnología existente. La innovación central del marco es la combinación de auto -codificador de compresión profunda, DIT lineal, codificador de texto decodificador y estrategias eficientes de capacitación y muestreo.
La tecnología de generación de imágenes de IA se está desarrollando rápidamente, pero el modelo se está volviendo cada vez más grande. Ahora, un nuevo tipo de texto llamado "SANA" nace para el marco de la imagen. de la computadora portátil.
El diseño central de Sana incluye:
Engoderador de compresión profunda: diferente de la imagen tradicional autocompresada de solo 8 veces que el auto -codificador tradicional puede comprimir la imagen por 32 veces, lo que reduce efectivamente los tokens potenciales. Esto es esencial para el entrenamiento de alta eficiencia y la generación de imágenes de ultra alta resolución.
DIT lineal: SANA reemplaza todos los mecanismos de atención tradicionales en DIT con atención lineal, lo que mejora la eficiencia de procesamiento de imágenes de alta resolución sin sacrificar la calidad. La atención lineal reduce la complejidad del cálculo de O (N²) a O (N). Además, SANA también utiliza MIX-FFFN para integrar 3x3 Convolución profunda en MLP para agregar información local de tokens, y no se requiere más codificación de posición.
Codador de texto del decodificador: SANA utiliza el último decoder pequeño LLM (como Gemma) como un codificador de texto para reemplazar el clip o T5 comúnmente utilizado. Este método mejora la comprensión y el razonamiento de las indicaciones del modelo, y mejora la alineación del texto de la imagen a través de instrucciones artificiales complejas y el aprendizaje de contexto.
Estrategia eficiente de entrenamiento y muestreo: SANA utiliza el solucionador Flow-DPM para reducir los pasos de muestreo y utilizar métodos eficientes de etiquetado y selección de títulos para acelerar la convergencia del modelo. El modelo SANA-0.6B es 20 veces más pequeño que el modelo de difusión grande (como Flux-12b), que es más de 100 veces más rápido.
La innovación de SANA es que ha reducido significativamente el retraso del razonamiento a través de los siguientes métodos:
Algoritmo y optimización colaborativa del sistema: a través de múltiples métodos de optimización, SANA ha acortado el tiempo de generación de imágenes 4096x4096 de 469 segundos a 9.6 segundos, 106 veces más rápido que el flujo modelo más avanzado actualmente más avanzado.
Compresor profundo del codificador: SANA utiliza la estructura AE-F32C32P1 para comprimir la imagen 32 veces, lo que reduce significativamente el número de tokens y acelera el entrenamiento y el razonamiento.
Atención lineal: use la atención lineal para reemplazar el mecanismo de autoeficiencia tradicional, lo que mejora la eficiencia del procesamiento de las imágenes de alta resolución.
Aceleración de Triton: use Triton para fusionar el núcleo del proceso de atención hacia adelante y hacia atrás del módulo de atención lineal para acelerar aún más el entrenamiento y el razonamiento.
Flow-DPM-Solver: reduzca los pasos de muestreo de inferencia de 28-50 a 14-20 pasos, y al mismo tiempo lograr mejores resultados de generación.
El rendimiento de Sana es muy bueno. A la resolución de 1024x1024, los parámetros del modelo SANA-0.6B fueron de solo 590 millones, pero el rendimiento general alcanzó 0.64 Geneval, que no es inferior a muchos modelos más grandes. Además, SANA-0.6B se puede implementar en la GPU de la computadora portátil de 16 GB, que solo tarda menos de 1 segundo en generar una resolución 1024 × 1024. Para imágenes 4K, el rendimiento de SANA-0.6B es más de 100 veces más rápido que el método más avanzado (flujo). SANA no solo hizo avances en la velocidad, sino que también tiene competitividad en términos de calidad de imagen.
Además, SANA también tiene una fuerte capacidad de migrar con un lenguaje de muestra cero. Incluso si solo se entrenan los datos en inglés, SANA puede comprender las indicaciones de los chinos y los emoticones y generar imágenes correspondientes.
La aparición de SANA ha reducido el umbral para generar imágenes de alta calidad, proporcionando fuertes herramientas de creación de contenido para profesionales y usuarios comunes. El código y el modelo de Sana se lanzarán públicamente.
Dirección de experiencia: https://nv-sana.mit.edu/
Dirección de tesis: https://arxiv.org/pdf/2410.10629
Github: https: //github.com/nvlabs/sana
En general, SANA ha logrado un avance en el campo de la generación de imágenes con su algoritmo eficiente y diseño optimizado del sistema, lo que brinda a los usuarios una conveniencia sin precedentes y una experiencia de generación de imágenes de alta calidad. Sus características de código abierto también contribuyen con fuerzas importantes al desarrollo de la tecnología de generación de imágenes de IA.