Stability AI lance un nouveau modèle de génération Stable Diffusion 3.5, trois versions, vitesse considérablement améliorée

Auteur：Eve Cole Date de mise à jour：2024-11-27 20:36:01

L'éditeur de Downcodes a appris que Stability AI a récemment publié son modèle de génération de texte vers image Stable Diffusion 3.5, qui comprend trois versions : Stable Diffusion 3.5 Large, Stable Diffusion 3.5 Large Turbo et Stable Diffusion 3.5 Medium, conçues pour répondre aux besoins des utilisateurs. différents utilisateurs, des professionnels aux passionnés occasionnels. Cette mise à jour est la réponse de Stability AI aux lacunes des versions précédentes et vise à améliorer sa compétitivité et à rivaliser avec des plateformes telles que DALL-E et Midjourney d'OpenAI. Le nouveau modèle présente des améliorations significatives en termes de qualité d'image, de vitesse de génération et de facilité d'utilisation, et introduit une technologie de normalisation des clés de requête pour améliorer la personnalisation du modèle et sa réactivité aux invites.

Stability AI a récemment lancé son dernier modèle de génération de texte en image d'apprentissage en profondeur - Stable Diffusion3.5. Cette version comprend trois modèles open source améliorés conçus pour répondre aux besoins de différents utilisateurs, notamment les chercheurs, les entreprises clientes et les passionnés.

Parmi eux, Stable Diffusion3.5Large est le modèle le plus puissant de toute la série, avec des paramètres pouvant atteindre 8,1 milliards. Ce modèle est idéal pour les utilisateurs professionnels en raison de son excellente qualité d'image et de sa grande réactivité aux invites, capable de produire des images de haute qualité avec des résolutions allant jusqu'à 1 mégapixel.

De plus, Stable Diffusion3.5Large Turbo est une version simplifiée de Stable Diffusion3.5Large. Il améliore considérablement la vitesse tout en générant des images de haute qualité. Il ne faut que 4 étapes pour terminer la génération d'images. Il est plus efficace que la version précédente et convient aux utilisateurs qui ont besoin de créer rapidement.

Un autre nouveau modèle est Stable Diffusion3.5Medium, qui comporte 2,5 milliards de paramètres. Le modèle utilise une architecture et une méthode de formation MMDiT-X améliorées, et est conçu pour être utilisé « prêt à l'emploi » et fonctionner sans problème, même sur du matériel grand public. Il offre un bon équilibre entre la qualité de génération d'images et la facilité de personnalisation, produisant des images de 0,25 à 2 mégapixels.

Le contexte de ce lancement est qu'après que la sortie de Stable Diffusion3Medium en juin n'ait pas répondu aux attentes, Stability AI a décidé de lancer une solution plus transformatrice. La société a déclaré qu'elle espérait retrouver sa compétitivité sur le marché grâce à cette mise à jour afin de faire face aux défis posés par des plates-formes telles que DALL-E et Midjourney d'OpenAI.

Une innovation technique importante du nouveau modèle est l’introduction de la technologie de normalisation Query-Key. Cette innovation améliore la personnalisation du modèle et la réactivité aux invites, permettant aux utilisateurs d'obtenir des résultats plus cohérents avec des invites explicites, ainsi que des interprétations d'images plus riches lors de l'utilisation d'invites plus larges.

La série de modèles Stable Diffusion3.5 sera publiée sous la licence communautaire de Stability AI, permettant aux utilisateurs de l'utiliser gratuitement pour un usage non commercial. Dans le même temps, les entités dont le revenu annuel est inférieur à 1 million de dollars peuvent également l'utiliser gratuitement, et les utilisateurs ayant un revenu supérieur à ce revenu doivent demander une licence d'entreprise.

Tous les modèles et leurs poids requis pour l'auto-hébergement seront disponibles sur les API de Hugging Face et Stability AI. De plus, la fonctionnalité ControlNets offrant des options avancées de personnalisation des images devrait être lancée dans les prochains jours.

Entrée officielle :

https://stability.ai/stable-image

Trois versions de l'entrée Hugging Face :

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

Dans l'ensemble, le lancement de la série Stable Diffusion 3.5 marque une avancée importante dans la technologie de génération de texte en image, offrant aux utilisateurs plus de choix et des fonctionnalités plus puissantes. L’éditeur de Downcodes attend avec impatience l’émergence de fonctionnalités plus innovantes dans le futur.