La IA de estabilidad libera un nuevo modelo de generación de difusión estable 3.5, tres versiones y una gran mejora de la velocidad - AI Artículos

Autor：Eve Cole Fecha de actualización：2025-02-12 15:00:03

Stability AI anuncia el lanzamiento de la difusión estable 3.5, una serie de tres versiones diferentes de grandes modelos de generación de texto a imagen. La serie tiene como objetivo satisfacer la amplia gama de necesidades, desde investigadores hasta clientes empresariales y entusiastas, proporcionando modelos de diferentes escalas de parámetros y características de rendimiento para adaptarse a diferentes capacidades informáticas y escenarios de aplicaciones. La actualización está destinada a responder a las deficiencias anteriores de difusión estable 3.0 y competir con otras herramientas líderes de generación de imágenes de IA en el mercado.

Stability AI lanzó recientemente su último modelo de generación de texto a imagen de aprendizaje profundo: difusión estable3.5. Esta versión incluye tres modelos de código abierto mejorados diseñados para satisfacer las necesidades de diferentes usuarios, incluidos investigadores, clientes corporativos y entusiastas.

Entre ellos, la difusión estable3.5Large es el modelo más poderoso de toda la serie, con parámetros de hasta 8.1 mil millones. Con su excelente calidad de imagen y alta capacidad de respuesta a las indicaciones, el modelo es ideal para usuarios profesionales, capaz de generar imágenes de alta calidad con una resolución de hasta 1 megapíxeles.

Además, la difusión estable3.5Large Turbo es una versión simplificada de difusión estable3.5Large. Mientras genera imágenes de alta calidad, mejora enormemente la velocidad.

Otro nuevo modelo es la difusión estable3.5 Medium, que tiene 2.5 mil millones de parámetros. El modelo adopta un método mejorado de arquitectura y entrenamiento MMDIT-X, diseñado para estar "fuera de la caja" y funciona sin problemas incluso en el hardware del consumidor. Se entera un buen equilibrio entre la calidad de la generación de imágenes y la facilidad de personalización, produciendo imágenes de 0.25 a 2 megapíxeles.

El trasfondo de este lanzamiento es que después de la liberación de junio de Diffusion3Medium estable no logró cumplir con las expectativas, la IA de estabilidad decidió lanzar una solución más transformadora. La compañía dijo que esperan recuperar la competitividad del mercado con la actualización para enfrentar desafíos de plataformas como Dall-E y MidJourney de OpenAi.

Una innovación tecnológica importante en el nuevo modelo es la introducción de la tecnología de normalización de clave de consulta. Esta innovación mejora la personalización del modelo y la capacidad de respuesta a las indicaciones, y los usuarios pueden obtener resultados más consistentes con indicaciones claras, al tiempo que obtienen una interpretación de imágenes más rica cuando se usan indicaciones más amplias.

El modelo de serie Difusión3.5 estable se lanzará bajo la licencia comunitaria de Stability AI, lo que permite a los usuarios usar no comercialmente de forma gratuita. Al mismo tiempo, las entidades con ingresos anuales de menos de US $ 1 millón también se pueden usar para uso comercial de forma gratuita, mientras que los usuarios con ingresos excesivos deben solicitar una licencia corporativa.

Todos los modelos y sus pesos autohospedantes se proporcionan en la cara abrazada y las API de estabilidad de IA. Además, se espera que la función Controlnets, que ofrece opciones avanzadas de personalización de imágenes, se lance en los próximos días.

Entrada oficial:

https://stability.ai/stable-image

Tres versiones de los portales de la cara abrazada:

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-mediium

Puntos clave:

El recién lanzado estable Diffusion3.5 ofrece tres versiones de modelo para satisfacer diferentes necesidades de los usuarios.

Difusión estable3.5Large Turbo tiene velocidades de generación de imágenes más rápidas, adecuadas para la creación rápida.

El nuevo modelo presenta la tecnología de normalización de clave de consulta, que mejora la personalización y la capacidad de respuesta.

En resumen, el lanzamiento del modelo de la serie Diffusion 3.5 estable marca una actualización importante de AI de estabilidad en el campo de la generación de texto a imagen. En la feroz competencia del mercado. ¡Visite los enlaces y experimenten la nueva tecnología de generación de imágenes!