Der Bereich der Bilderzeugung mit künstlicher Intelligenz verändert sich mit jedem Tag. Nach dem Update von Midjourney soll das Open-Source-Modell FLUX.1 auch Closed-Source-Modelle wie DALL·E3 und Midjourney V6 übertreffen B. die SD3-Serie von Open-Source-Modellen, die in der Branche große Aufmerksamkeit erregt haben. Der Herausgeber von Downcodes wird Ihnen einen detaillierten Einblick in dieses neue Meisterwerk von Robin Rombach, einem maßgeblichen Experten auf dem Gebiet der Diffusionsmodelle, sowie in die technologische Innovation und die Zukunftsaussichten dahinter geben.
Im Bereich der künstlichen Intelligenz kann es täglich zu disruptiven Veränderungen kommen. Nur einen Tag nach dem großen Update von Midjourney brachte der Bereich der Open-Source-Bildgenerierung ein auffälliges dunkles Pferd hervor – FLUX.1. Dieser plötzliche neue Player behauptet nicht nur, dass er Closed-Source-Modelle wie DALL·E3 und Midjourney V6 in puncto Leistung deutlich übertrifft, sondern tötet auch die gesamte Open-Source-SD3-Serie, wodurch der KI-Kreis sofort explodiert.
Lernen wir zunächst den Mastermind hinter FLUX.1 kennen. Sein Gründer, Robin Rombach, ist kein Unbekannter, sondern ein maßgeblicher Experte auf dem Gebiet der Diffusionsmodelle. Zu seinen repräsentativen Werken gehören VQGAN, Taming Transformers und Latent Diffusion. Er war einst Chefwissenschaftler von Stability AI und leitete die weltberühmte Projektreihe Stable Diffusion. Man kann sagen, dass Robin Rombach ein erfahrener Fahrer unter den erfahrenen Fahrern im Bereich der KI-Bildgenerierung ist.
Im März dieses Jahres entschied sich Robin aufgrund interner Unruhen bei Stability AI, das Unternehmen zu verlassen. Nach vier Monaten harter Arbeit kehrte er mit der neuen Open-Source-Großmodellplattform FLUX.1 zurück. Noch überraschender ist, dass FLUX.1 bei seinem Debüt eine Startfinanzierungsrunde in Höhe von 32 Millionen US-Dollar unter der Leitung des bekannten Risikokapitalinstituts Andreessen Horowitz erhielt. Dies gibt zweifellos einen Schub für die zukünftige Entwicklung von FLUX.1.
Was ist also das Besondere an FLUX.1? Erstens basiert es auf der Vision Transformer-Architektur, verwendet eine Prozessanpassungs-Trainingsmethode und nutzt Rotationspositionseinbettung und parallele Aufmerksamkeitsebenen, um die Modellleistung und die Hardware-Nutzungseffizienz zu verbessern. Dieses 12-Milliarden-Parameter-Modell wird in drei Versionen eingeführt:
Pro-Version: Wird über die API verwendet und bietet die leistungsstärkste Leistung.
Dev-Version: Ein nichtkommerzielles geführtes Destillationsmodell, das den Großteil der Leistung der Pro-Version übernimmt.
Schnell-Version: Ein kommerziell nutzbares Open-Source-Modell mit hervorragender Leistung.
Den Testdaten des FLUX.1-Teams zufolge übertrifft sogar die Open-Source-Schnell-Version Midjourney v6.0 und DALL·E3 (HD) in Bezug auf textsemantische Wiederherstellung, Bildqualität, Handlungskonsistenz, Kohärenz und Vielfalt sowie Mainstream-Modelle wie SD3-Ultra. Insbesondere beim Einbetten von Texten in Bilder zeigt FLUX.1 offensichtliche Vorteile.
Hier hat AIbase mehrere offizielle Generierungseffektanzeigen als Referenz ausgewählt:
Echte Fotografiebilder
AIbase hat den bisherigen Katzenpatron getestet und es war überhaupt kein Problem, dass FLUX.1 die prompten Worte genauer verstand.
Natürlich enden die Ambitionen von FLUX.1 hier natürlich nicht. Das Team sagte, dass Vincent Picture nur der Anfang sei. In der Zukunft planen sie auch die Einführung des Vincent Video-Modells, um First-Line-Produkte wie Sora, Gen-3 und Luma herauszufordern.
Für Entwickler und KI-Enthusiasten ist die Einführung von FLUX.1 zweifellos ein großer Vorteil. Die Schnell-Version ist vollständig Open Source und wird von Comfyui unterstützt. Wenn Sie über mehr als 36 GB Videospeicher verfügen, können Sie sogar die fp16-Version von t5 ausführen. Es ist jedoch zu beachten, dass t5xxl_fp16.safetensors oder clip_l.safetensors und VAE separat heruntergeladen werden müssen.
Das Aufkommen von FLUX.1 bringt nicht nur neue Hoffnung in den Bereich der Open-Source-KI-Bildgenerierung, sondern verleiht auch der gesamten KI-Branche neue Dynamik. Seine leistungsstarke Leistung und Open-Source-Funktionen dürften die Popularität und Innovation der KI-Bilderzeugungstechnologie beschleunigen. Für normale Benutzer bedeutet dies, dass wir möglicherweise bald KI-Modelle zur Bilderzeugung auf unseren Heimcomputern ausführen können, die mit Midjourney mithalten oder diese sogar übertreffen können.
Projektadresse: https://github.com/black-forest-labs/flux
Testadresse: https://replicate.com/black-forest-labs/flux-pro
Comfyui-Workflow: https://comfyanonymous.github.io/ComfyUI_examples/flux/
Alles in allem markiert das Aufkommen von FLUX.1 eine neue Etappe im Bereich der Open-Source-KI-Bildgenerierung. Seine leistungsstarke Leistung und Open-Source-Funktionen werden die Popularität und Entwicklung der KI-Bildgenerierungstechnologie erheblich fördern. Wir freuen uns darauf, dass FLUX.1 in Zukunft weitere Überraschungen bereithält!