El editor de Downcodes conoció que Stability AI lanzó recientemente su modelo de generación de texto a imagen Stable Diffusion 3.5, que incluye tres versiones: Stable Diffusion 3.5 Large, Stable Diffusion 3.5 Large Turbo y Stable Diffusion 3.5 Medium, diseñadas para satisfacer las necesidades de diferentes usuarios, desde profesionales hasta entusiastas ocasionales. Esta actualización es la respuesta de Stability AI a las deficiencias de versiones anteriores y tiene como objetivo mejorar su competitividad y competir con plataformas como DALL-E y Midjourney de OpenAI. El nuevo modelo tiene mejoras significativas en la calidad de la imagen, la velocidad de generación y la facilidad de uso, e introduce tecnología de normalización de claves de consulta para mejorar la personalización del modelo y la capacidad de respuesta a las indicaciones.
Stability AI lanzó recientemente su último modelo de generación de texto a imagen de aprendizaje profundo: Stable Diffusion3.5. Esta versión incluye tres modelos mejorados de código abierto diseñados para satisfacer las necesidades de diferentes usuarios, incluidos investigadores, clientes empresariales y entusiastas.
Entre ellos, Stable Diffusion3.5Large es el modelo más potente de toda la serie, con parámetros de hasta 8,1 mil millones. Este modelo es ideal para usuarios profesionales debido a su excelente calidad de imagen y alta capacidad de respuesta a las indicaciones, capaz de producir imágenes de alta calidad con resoluciones de hasta 1 megapíxel.
Además, Stable Diffusion3.5Large Turbo es una versión simplificada de Stable Diffusion3.5Large. Mejora enormemente la velocidad al tiempo que genera imágenes de alta calidad. Solo se necesitan 4 pasos para completar la generación de imágenes. Es más eficiente que la versión anterior y es adecuada para usuarios que necesitan crear rápidamente.
Otro modelo nuevo es Stable Diffusion3.5Medium, que tiene 2.500 millones de parámetros. El modelo utiliza una arquitectura MMDiT-X mejorada y un método de entrenamiento, y está diseñado para usarse "listo para usar" y funcionar sin problemas incluso en hardware de consumo. Logra un buen equilibrio entre la calidad de generación de imágenes y la facilidad de personalización, produciendo imágenes de 0,25 a 2 megapíxeles.
El trasfondo de este lanzamiento es que después de que el lanzamiento de junio de Stable Diffusion3Medium no cumpliera con las expectativas, Stability AI decidió lanzar una solución más transformadora. La compañía dijo que espera recuperar la competitividad del mercado con esta actualización para enfrentar los desafíos de plataformas como DALL-E y Midjourney de OpenAI.
Una innovación técnica importante del nuevo modelo es la introducción de la tecnología de normalización de clave de consulta. Esta innovación mejora la personalización del modelo y la capacidad de respuesta a las indicaciones, lo que permite a los usuarios lograr resultados más consistentes con indicaciones explícitas, así como interpretaciones de imágenes más ricas cuando se utilizan indicaciones más amplias.
La serie de modelos Stable Diffusion3.5 se lanzará bajo la licencia comunitaria de Stability AI, lo que permitirá a los usuarios utilizarla de forma gratuita para uso no comercial. Al mismo tiempo, las entidades con ingresos anuales inferiores a 1 millón de dólares estadounidenses también pueden utilizarlo de forma gratuita, y los usuarios con ingresos superiores a estos deben solicitar una licencia empresarial.
Todos los modelos y sus pesos requeridos para el autohospedaje estarán disponibles en las API de Hugging Face y Stability AI. Además, se espera que en los próximos días se lance la funcionalidad ControlNets que proporciona opciones avanzadas de personalización de imágenes.
Entrada oficial:
https://stability.ai/stable-image
Tres versiones de la entrada Hugging Face:
https://huggingface.co/stabilityai/stable-diffusion-3.5-large
https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo
https://huggingface.co/stabilityai/stable-diffusion-3.5-medium
Con todo, el lanzamiento de la serie Stable Diffusion 3.5 marca un avance importante en la tecnología de generación de texto a imagen, brindando a los usuarios más opciones y funciones más poderosas. El editor de Downcodes espera que surjan funciones más innovadoras en el futuro.