Stabilité AI libère un nouveau modèle de génération de diffusion 3,5 stable, trois versions et une grande amélioration de la vitesse - articles de l'IA

Auteur：Eve Cole Date de mise à jour：2025-02-12 15:00:03

Stabilité AI annonce le lancement de STABLE DIFUSION 3.5, une série de trois versions différentes de grands modèles de génération de texte à l'image. La série vise à répondre au large éventail de besoins des chercheurs aux clients d'entreprise en passant par les amateurs, en fournissant des modèles d'échelles de paramètres et de caractéristiques de performance différentes pour s'adapter à différentes capacités informatiques et scénarios d'application. La mise à jour est destinée à répondre aux lacunes précédentes de la diffusion stable 3.0 et à rivaliser avec d'autres principaux outils de génération d'images d'IA sur le marché.

Stabilité AI a récemment lancé son dernier modèle de génération de texte à l'image en profondeur - Diffusion stable3.5. Cette version comprend trois modèles open source améliorés conçus pour répondre aux besoins des différents utilisateurs, y compris des chercheurs, des clients d'entreprise et des passionnés.

Parmi eux, la diffusion stable3,5 est le modèle le plus puissant de toute la série, avec des paramètres pouvant atteindre 8,1 milliards. Avec son excellente qualité d'image et sa forte réactivité aux invites, le modèle est idéal pour les utilisateurs professionnels, capable de générer des images de haute qualité avec une résolution allant jusqu'à 1 mégapixel.

De plus, la diffusion stable3.5-élargissement turbo est une version simplifiée de la diffusion stable3.5-élargissement. Tout en générant des images de haute qualité, elle améliore considérablement la vitesse.

Un autre nouveau modèle est le stable diffusion3.5medium, qui a 2,5 milliards de paramètres. Le modèle adopte une méthode d'architecture et de formation MMDIT-X améliorée, conçue pour être "hors de la boîte" et se déroule en douceur même sur le matériel des consommateurs. Il établit un bon équilibre entre la qualité de la génération d'images et la facilité de personnalisation, produisant des images de 0,25 à 2 mégapixels.

Le contexte de cette version est qu'après la sortie de juin de STABLE DIFFUSION3MEDIUM n'a pas répondu aux attentes, la stabilité AI a décidé de lancer une solution plus transformatrice. La société a déclaré espérer regagner la compétitivité du marché avec la mise à jour pour relever les défis de plateformes telles que Dall-E et Midjourney d'Openai.

Une importante innovation technologique dans le nouveau modèle est l'introduction de la technologie de normalisation des touches de requête. Cette innovation améliore la personnalisation du modèle et la réactivité aux invites, et les utilisateurs peuvent obtenir des résultats plus cohérents avec des invites claires, tout en obtenant une interprétation d'image plus riche lors de l'utilisation d'invites plus larges.

Le modèle stable DIFFUSION3.5 sera publié sous la licence communautaire de stabilité AI, permettant aux utilisateurs d'utiliser non commercialement gratuitement. Dans le même temps, les entités ayant un revenu annuel inférieur à 1 million de dollars peuvent également être utilisées pour une utilisation commerciale gratuitement, tandis que les utilisateurs ayant un revenu excédentaire doivent demander une licence d'entreprise.

Tous les modèles et leurs poids d'auto-hébergement sont fournis sur le visage étreint et la stabilité des API de l'IA. De plus, la fonction ControlNets, qui propose des options de personnalisation d'images avancées, devrait être lancée dans les prochains jours.

Entrée officielle:

https://stability.ai/stable-image

Trois versions de portails de visage étreintes:

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

Points clés:

La nouvelle diffusion stable3.5 nouvellement lancée propose trois versions de modèle pour répondre aux différents besoins des utilisateurs.

Diffusion stable3.5-Turbo a des vitesses de génération d'images plus rapides, adaptées à la création rapide.

Le nouveau modèle présente la technologie de normalisation des clés de requête, qui améliore la personnalisation et la réactivité.

En bref, le lancement du modèle stable de diffusion 3.5 marque une mise à niveau majeure de la stabilité dans le domaine de la génération de texte à l'image. dans la concurrence féroce du marché. Visitez les liens fournis et expérimentez la toute nouvelle technologie de génération d'images!