Der Herausgeber von Downcodes berichtet: Es ist ein Open-Source-KI-Bilderzeugungsmodell namens Meissonic entstanden, das mit nur einer Milliarde Parametern qualitativ hochwertige Bilder erzeugen kann. Man kann es als einen leichten Giganten auf dem Gebiet der KI-Bilderzeugung bezeichnen. Dies ist auf die einzigartige Konverterarchitektur und neuartige Trainingsmethoden zurückzuführen, die vom Forschungs- und Entwicklungsteam (Forscher von Alibaba, Skywork AI und mehreren Universitäten) übernommen wurden. Meissonic kann nicht nur auf gewöhnlichen Gaming-PCs laufen, sondern wird voraussichtlich in Zukunft auch lokalisierte Text-zu-Bild-Anwendungen auf Mobiltelefonen implementieren, was die Einstiegsschwelle für die KI-Bildgenerierung erheblich senken wird.
Kürzlich hat das wissenschaftliche Forschungsteam gemeinsam ein Open-Source-KI-Bilderzeugungsmodell namens Meissonic auf den Markt gebracht. Überraschenderweise kann dieses Modell mit nur einer Milliarde Parametern qualitativ hochwertige Bilder erzeugen. Dieses kompakte Design bietet Meissonic die Möglichkeit, Text-zu-Bild-Anwendungen auf mobilen Geräten zu lokalisieren.
Das F&E-Team hinter dieser Technologie besteht aus Forschern von Alibaba, Skywork AI und mehreren Universitäten. Sie nutzten eine einzigartige Konverterarchitektur und neuartige Trainingsmethoden, um Meissonic in Zukunft auf normalen Gaming-PCs und möglicherweise sogar auf Mobiltelefonen laufen zu lassen.
Die Trainingsmethode von Meissonic verwendet eine Technik namens „maskierte Bildmodellierung“, was einfach bedeutet, dass ein Teil des Bildes während des Trainingsprozesses ausgeblendet wird. Das Modell lernt, fehlende Teile anhand sichtbarer Bereiche und Textbeschreibungen zu rekonstruieren. Dieser Ansatz hilft dem Modell, die Beziehung zwischen Bildelementen und Text zu verstehen.
Die Architektur von Meissonic ermöglicht die Erzeugung hochauflösender Bilder mit 1024 x 1024 Pixeln, unabhängig davon, ob es sich um realistische Szenen oder stilisierte Texte, Emoticons oder sogar Cartoon-Aufkleber handelt.
Im Gegensatz zu herkömmlichen autoregressiven Modellen, die schrittweise Bilder generieren, sagt Meissonic alle Bildinformationen gleichzeitig durch parallele iterative Optimierung voraus. Diese Innovation reduziert die Dekodierungsschritte erheblich, verkürzt die Zeit um etwa 99 % und verbessert die Bilderzeugungsgeschwindigkeit erheblich.
Bei der Erstellung des Modells durchliefen die Forscher vier Schritte:
Zuerst nutzten sie 200 Millionen Bilder mit 256 x 256 Pixeln, um dem Modell grundlegende Konzepte beizubringen. Anschließend verwendeten sie 10 Millionen streng gerasterte Bild-Text-Paare, um die Textverständnisfähigkeiten des Modells zu verbessern 1024 x 1024 Pixel-für-Pixel-Bilder führten sie schließlich eine Feinabstimmung durch, bei der Daten zu menschlichen Vorlieben einbezogen wurden, um die Leistung des Modells zu verbessern.
Interessanterweise übertraf Meissonic trotz einer geringeren Anzahl von Parametern einige größere Modelle wie SDXL und DeepFloyd-XL bei mehreren Benchmarks und erreichte einen hohen „Human Preference Score“ von 28,83. Darüber hinaus ist Meissonic in der Lage, Bilder ohne zusätzliche Schulung zu patchen und zu erweitern, sodass Benutzer fehlende Bildteile einfach hinzufügen oder vorhandene Bilder kreativ verbessern können.
Das Forschungsteam glaubt, dass diese Methode die schnelle und kostengünstige Entwicklung maßgeschneiderter KI-Bildgeneratoren fördern kann und voraussichtlich auch die Entwicklung von Text-zu-Bild-Anwendungen auf mobilen Geräten fördern wird. Interessierte Freunde können die Demoversion auf Hugging Face finden und den Code des Modells auf GitHub ansehen, das problemlos auf einer Consumer-GPU mit gewöhnlichen 8 GB Videospeicher ausgeführt werden kann.
Demo:https://huggingface.co/spaces/MeissonFlow/meissonic
Projekt: https://github.com/viiika/Meissonic
Highlight:
Meissonic ist ein Open-Source-KI-Modell, das mit nur einer Milliarde Parametern qualitativ hochwertige Bilder erzeugen kann, die für den Einsatz auf gewöhnlichen Gaming-PCs und zukünftigen Mobilgeräten geeignet sind.
Mithilfe einer parallelen iterativen Optimierungstrainingsmethode kann Meissonic Bilder 99 % schneller als herkömmliche Modelle generieren.
?Trotz seiner geringen Parametergröße übertrifft Meissonic in mehreren Tests größere Modelle und ermöglicht ein trainingsfreies Bild-Inpainting und -Erweiterung.
Alles in allem hat das Aufkommen von Meissonic neue Möglichkeiten im Bereich der KI-Bilderzeugung eröffnet. Sein leichtes Design und seine effiziente Leistung sind es wert, gespannt zu sein. Der Herausgeber von Downcodes empfiehlt jedem, Hugging Face und GitHub zu besuchen, um dieses leistungsstarke KI-Modell zu erleben und zu erkunden.