La sortie du modèle Stable Diffusion 3 marque une avancée majeure dans la génération de texte en image. Ce modèle utilise la même architecture DiT que Sora et améliore considérablement la qualité de génération d'images grâce à une série d'améliorations techniques. Sa taille de paramètre varie de 800M à 8B, montrant de fortes performances et un potentiel d'application flexible. Il convient de noter que l'équipe R&D de SD3 intègre l'expertise des principaux membres R&D de Sora et des professeurs adjoints de NYU, et adopte l'architecture MMDiT supérieure à UViT et DiT, ainsi que des variantes de formule innovantes à flux rectifié (RF), qui sont Il fournit une base solide pour l’amélioration des performances du modèle.
Le modèle Stable Diffusion 3 est lancé, utilisant la même architecture DiT que Sora, avec des améliorations de qualité significatives. Les auteurs affirment que Stable Diffusion 3 surpasse les autres systèmes de génération de texte en image, avec des tailles de paramètres allant de 800 Mo à 8 Mo. L'architecture SD3 est basée sur la collaboration entre les principaux membres R&D de Sora et les professeurs adjoints de l'Université de New York, utilisant l'architecture MMDiT pour être supérieure à UViT et DiT. Stable Diffusion 3 adopte la formule Rectified Flow (RF) et les performances de la variante RF repondérée proposée par l'auteur continuent de s'améliorer. Le modèle est étendu et amélioré à l'aide d'un encodeur de texte flexible, et ses performances sont comparées à celles d'autres modèles.
La sortie de Stable Diffusion 3 reflète non seulement le développement rapide de la technologie de génération de texte en image, mais indique également que des modèles de plus en plus puissants émergeront dans le domaine de la génération d'images IA à l'avenir. Son architecture et son algorithme améliorés, ainsi que ses comparaisons de performances avec d'autres modèles, constituent une référence précieuse pour les chercheurs et les développeurs. Nous espérons que Stable Diffusion 3 pourra jouer un rôle dans davantage de scénarios d’application à l’avenir.