El lanzamiento del modelo Stable Diffusion 3 marca un avance importante en la generación de texto a imagen. Este modelo utiliza la misma arquitectura DiT que Sora y mejora significativamente la calidad de generación de imágenes a través de una serie de mejoras técnicas. El tamaño de sus parámetros varía de 800M a 8B, lo que muestra un rendimiento sólido y un potencial de aplicación flexible. Vale la pena señalar que el equipo de I+D de SD3 integra la experiencia de los miembros principales de I+D de Sora y los profesores asistentes de la Universidad de Nueva York, y adopta la arquitectura MMDiT que es superior a UViT y DiT, así como variantes innovadoras de fórmula de flujo rectificado (RF), que son Proporciona una base sólida para mejorar el rendimiento del modelo.
Se lanza el modelo Stable Diffusion 3, que utiliza la misma arquitectura DiT que Sora, con importantes mejoras de calidad. Los autores afirman que Stable Diffusion 3 supera a otros sistemas de generación de texto a imagen, con tamaños de parámetros que van desde 800M a 8B. La arquitectura SD3 se basa en la colaboración entre los principales miembros de I+D de Sora y profesores asistentes de la Universidad de Nueva York, utilizando la arquitectura MMDiT para ser superior a UViT y DiT. Stable Diffusion 3 adopta la fórmula de flujo rectificado (RF) y el rendimiento de la variante de RF reponderada propuesta por el autor continúa mejorando. El modelo se amplía y mejora mediante un codificador de texto flexible y se compara su rendimiento con otros modelos.
El lanzamiento de Stable Diffusion 3 no solo refleja el rápido desarrollo de la tecnología de generación de texto a imagen, sino que también indica que en el futuro surgirán modelos cada vez más potentes en el campo de la generación de imágenes de IA. Su arquitectura y algoritmo mejorados, así como las comparaciones de rendimiento con otros modelos, brindan referencias y referencias valiosas para investigadores y desarrolladores. Esperamos que Stable Diffusion 3 pueda desempeñar un papel en más escenarios de aplicaciones en el futuro.