Stability AI veröffentlicht neues Stable Diffusion 3.5-Generationsmodell, drei Versionen, deutlich verbesserte Geschwindigkeit

Autor：Eve Cole Aktualisierungszeit：2024-11-27 20:36:01

Der Herausgeber von Downcodes erfuhr, dass Stability AI kürzlich sein Text-zu-Bild-Generierungsmodell Stable Diffusion 3.5 veröffentlicht hat, das drei Versionen umfasst: Stable Diffusion 3.5 Large, Stable Diffusion 3.5 Large Turbo und Stable Diffusion 3.5 Medium, die auf die Bedürfnisse von zugeschnitten sind verschiedene Benutzer, vom Profi bis zum Gelegenheitsenthusiasten. Dieses Update ist die Antwort von Stability AI auf die Mängel früherer Versionen und zielt darauf ab, seine Wettbewerbsfähigkeit zu verbessern und mit Plattformen wie DALL-E und Midjourney von OpenAI zu konkurrieren. Das neue Modell bietet erhebliche Verbesserungen bei der Bildqualität, der Generierungsgeschwindigkeit und der Benutzerfreundlichkeit und führt eine Technologie zur Normalisierung von Abfrageschlüsseln ein, um die Anpassung des Modells und die Reaktionsfähigkeit auf Eingabeaufforderungen zu verbessern.

Stability AI hat kürzlich sein neuestes Deep-Learning-Modell zur Text-zu-Bild-Generierung auf den Markt gebracht – Stable Diffusion3.5. Diese Version enthält drei verbesserte Open-Source-Modelle, die auf die Bedürfnisse verschiedener Benutzer zugeschnitten sind, darunter Forscher, Unternehmenskunden und Enthusiasten.

Unter ihnen ist Stable Diffusion3.5Large mit Parametern von bis zu 8,1 Milliarden das leistungsstärkste Modell der gesamten Serie. Dieses Modell ist aufgrund seiner hervorragenden Bildqualität und der hohen Reaktionsfähigkeit auf Eingabeaufforderungen ideal für professionelle Benutzer und ermöglicht die Erstellung hochwertiger Bilder mit Auflösungen von bis zu 1 Megapixel.

Darüber hinaus ist Stable Diffusion3.5Large Turbo eine vereinfachte Version von Stable Diffusion3.5Large. Es verbessert die Geschwindigkeit bei der Generierung hochwertiger Bilder erheblich. Es sind nur 4 Schritte erforderlich, um die Bildgenerierung abzuschließen. Es ist effizienter als die Vorgängerversion und eignet sich für Benutzer, die schnell erstellen müssen.

Ein weiteres neues Modell ist Stable Diffusion3.5Medium mit 2,5 Milliarden Parametern. Das Modell nutzt eine verbesserte MMDiT-X-Architektur und Trainingsmethode und ist so konzipiert, dass es „out of the box“ verwendet werden kann und auch auf Consumer-Hardware reibungslos läuft. Es schafft ein gutes Gleichgewicht zwischen Bilderzeugungsqualität und einfacher Anpassung und erzeugt Bilder von 0,25 bis 2 Megapixeln.

Der Hintergrund dieser Einführung ist, dass Stability AI beschlossen hat, eine transformativere Lösung auf den Markt zu bringen, nachdem die Juni-Veröffentlichung von Stable Diffusion3Medium die Erwartungen nicht erfüllt hatte. Das Unternehmen hofft, mit diesem Update die Wettbewerbsfähigkeit auf dem Markt wiederzugewinnen, um den Herausforderungen von Plattformen wie DALL-E und Midjourney von OpenAI zu begegnen.

Eine wichtige technische Neuerung des neuen Modells ist die Einführung der Query-Key-Normalisierungstechnologie. Diese Innovation verbessert die Modellanpassung und die Reaktionsfähigkeit auf Eingabeaufforderungen, sodass Benutzer konsistentere Ergebnisse mit expliziten Eingabeaufforderungen sowie umfassendere Bildinterpretationen bei Verwendung umfassenderer Eingabeaufforderungen erzielen können.

Die Modellreihe Stable Diffusion3.5 wird unter der Community-Lizenz von Stability AI veröffentlicht, sodass Benutzer sie für nichtkommerzielle Zwecke kostenlos nutzen können. Gleichzeitig können Unternehmen mit einem Jahresumsatz von weniger als 1 Million US-Dollar es auch kostenlos nutzen, und Benutzer mit mehr als diesem Einkommen müssen eine Unternehmenslizenz beantragen.

Alle Modelle und ihre erforderlichen Gewichte für das Selbsthosting werden auf den APIs von Hugging Face und Stability AI verfügbar sein. Darüber hinaus wird erwartet, dass in den kommenden Tagen die ControlNets-Funktionalität eingeführt wird, die erweiterte Bildanpassungsoptionen bietet.

Offizieller Eingang:

https://stability.ai/stable-image

Drei Versionen des Hugging Face-Eingangs:

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

Alles in allem stellt die Einführung der Stable Diffusion 3.5-Serie einen wichtigen Fortschritt in der Technologie zur Text-zu-Bild-Generierung dar und bietet Benutzern mehr Auswahlmöglichkeiten und leistungsfähigere Funktionen. Der Herausgeber von Downcodes freut sich auf das Aufkommen weiterer innovativer Funktionen in der Zukunft.