Sana, el último modelo de generación de imágenes de código abierto de NVIDIA, ha provocado una ola en el campo de la generación de imágenes de IA con su tamaño compacto y potente rendimiento. Sana sólo tiene 60 millones de parámetros, pero puede generar imágenes de alta definición de hasta 4096×4096 píxeles y alcanzar velocidades inferiores a la segunda generación en una tarjeta gráfica de 16 GB. Esto se debe a su innovador codificador automático de compresión profunda y transformador de difusión lineal, así como a la optimización de la codificación de texto y las estrategias de inferencia. Su rendimiento es sobresaliente entre modelos similares, incluso en comparación con modelos con parámetros mayores.
Recientemente, NVIDIA ha abierto un modelo de generación de imágenes llamado Sana. Este modelo tiene solo 60 millones de parámetros, lo que reduce en gran medida el umbral operativo.
Se entiende que Sana puede generar imágenes con una resolución de 4096×4096 y puede ejecutarse en una tarjeta gráfica de 16 GB. Puede generar imágenes de alta calidad con una resolución de 1024×1024 en menos de 1 segundo.
El equipo de investigación introdujo un codificador automático de compresión profunda (DC-AE). En comparación con los codificadores automáticos tradicionales, Sana tiene una relación de compresión de hasta 32 veces, lo que reduce en gran medida la cantidad de etiquetas potenciales, lo cual es útil para generar imágenes de resolución ultra alta. Crucial. En segundo lugar, Sana utiliza un transformador de difusión lineal (DiT) para reemplazar la atención cuadrática tradicional con atención lineal, reduciendo así la complejidad a O (N) y mejora la información local a través de una convolución de profundidad de 3 × 3. Este diseño aumenta 1,7 veces la latencia de Sana al generar imágenes 4K.
En términos de codificación de texto, Sana eligió Gemma, un modelo de lenguaje grande específico para un decodificador pequeño, en lugar del modelo tradicional T5. Gemma se desempeña mejor en la comprensión y ejecución de instrucciones complejas, lo que mejora la capacidad de alinear imágenes y texto. Además, Sana optimiza las estrategias de entrenamiento e inferencia para mejorar la coherencia entre texto e imagen al etiquetar y seleccionar automáticamente descripciones con puntuaciones CLIP altas. El algoritmo Flow-DPM-Solver recientemente propuesto reduce los pasos de razonamiento a 14-20 pasos, lo que mejora significativamente el rendimiento.
En términos de rendimiento general, Sana funciona bien en múltiples modelos avanzados de difusión de texto a imagen. Con una resolución de 512×512, Sana-0.6 tiene 5 veces el rendimiento de PixArt-Σ y funciona bien en términos de calidad de generación de imágenes. Con una resolución de 1024×1024, Sana-0.6B también tiene ventajas significativas en modelos con menos de 300 millones de parámetros.
Sana-0.6B no sólo tiene un rendimiento sólido, sino que también puede generar imágenes rápidamente en una GPU de computadora portátil de 16 GB, lo que ayuda a los creadores de contenido a lograr sus objetivos creativos de manera eficiente. Se dice que Sana0.6B también es competitivo con Flux-12B en términos de rendimiento. El número de parámetros es solo 1/20, pero la velocidad es 100 veces más rápida.
Curiosamente, las palabras rápidas de Sana admiten inglés, chino y emoji. Los usuarios pueden ingresar poemas chinos y generar imágenes artísticas relacionadas con ellos. Además, Sana también tiene cierto grado de seguridad. Cuando los usuarios ingresan palabras inapropiadas, el sistema las reemplazará automáticamente con patrones de corazones rojos para evitar la generación de contenido inapropiado.
Por ejemplo, cuando AIbase ingresa la palabra "Un gato está jugando en la hierba, estrellas", la velocidad de generación es muy rápida y el efecto también es muy bueno.
Para otro ejemplo, dada la palabra inicial "Uno lindo está comiendo, estilo pintura con tinta", puede ver que el modelo puede identificar emoji con precisión.
Cabe mencionar que Sana ha recibido soporte oficial para ComfyUI y está equipada con la herramienta de capacitación Lora. Esto hace que su uso sea más cómodo para los usuarios y su practicidad también mejora considerablemente. Los amigos interesados pueden probarlo ellos mismos.
Entrada del proyecto: https://nv-sana.mit.edu/
Destacar:
** Generación eficiente **: Sana puede generar rápidamente imágenes de alta calidad con resoluciones de hasta 4096 × 4096, adecuadas para su uso en GPU de portátiles normales.
**Diseño innovador**: El codificador automático de compresión profunda y el transformador de difusión lineal mejoran en gran medida la velocidad y la calidad de la generación.
**Excelente rendimiento**: Sana funciona bien en múltiples pruebas, con un rendimiento significativamente mayor que otros modelos avanzados, lo que permite una rápida creación de contenido.
Con todo, Sana ofrece a los usuarios una nueva experiencia de generación de imágenes mediante IA con su velocidad de generación eficiente, salida de imágenes de alta calidad y uso conveniente. Vale la pena esperar su desarrollo futuro.