Auf dem Gebiet der Bildgenerierung wurden bedeutende Fortschritte erzielt, aber die Einschränkungen bestehender Modelle haben die Einheit der Sprachsichtsmodelle behindert. In diesem Artikel wird ein neues Text-zu-Image-Modell namens Missonisch vorgestellt, das nicht autoregressive maskierte Bildmodellierungstechnologie (MIM) verwendet, um hochmoderne Diffusionsmodelle (wie SDXL) mit nur 1 Milliarde Parametern zu erreichen. Eine beträchtliche Qualität der Bildgenerierung. Meissonic verbessert die MIM -Leistung und -Effizienz mit seinen architektonischen Innovationen, Standortkodierungsstrategien und optimierten Stichprobenbedingungen erheblich und erreicht die Erzeugung von Bildern von 1024 × 1024 -Auflösungsbildern für Verbraucher -GPUs.
Das Herzstück von Meissonic steht eine Reihe von architektonischen Innovationen, fortschrittliche Positionscodierungsstrategien und optimierte Stichprobenbedingungen, die die MIM -Leistung und -Effizienz erheblich verbessern. Darüber hinaus verwendet Meissonic auch hochwertige Trainingsdaten, integriert Mikrokonditionen auf der Grundlage menschlicher Präferenzwerte und übernimmt Merkmalskomprimierungsschichten, um die Treue und Auflösung des Bildes weiter zu verbessern.
Im Gegensatz zu großen Diffusionsmodellen wie SDXL und DeepFloyd-XL verfügt Meissonic nur 1 Milliarde Parameter, kann jedoch hochwertige Bilder mit 1024 × 1024 Auflösung erzeugen und mit nur 8 GB Videospeicher ohne zusätzliches Modell auf dem Verbrauchergrad-GPUs ausgeführt werden Optimierung. Darüber hinaus erleichtert Meissonic es einfach, Bilder mit festen Farbhintergründen zu erzeugen, für die häufig ein Modell für Feinabstimmungen oder Geräuschversetzteinstellungen in Diffusionsmodellen erforderlich ist.
Um ein effizientes Training zu erreichen, ist der Trainingsprozess von Meissonic in vier sorgfältig gestaltete Phasen unterteilt:
Die erste Stufe: Verstehen Sie die grundlegenden Konzepte aus massiven Daten. Meissonic verwendet den gefilterten Laion-2B-Datensatz, um bei 256 × 256 Auflösung zu trainieren, um grundlegende Konzepte zu lernen.
Stufe 2: Ausrichten von Text und Bildern mit langen Eingabeaufforderungen. Die Trainingsauflösung wird auf 512 × 512 verbessert, und hochwertige synthetische Bildtextpaare und interne Datensätze werden verwendet, um die Fähigkeit des Modells zu verbessern, lange beschreibende Hinweise zu verstehen.
Stufe 3: Master -Merkmalskomprimierung, um eine höhere Auflösung zu erzielen. Durch die Einführung von Merkmalskomprimierungsschichten kann Meissonic nahtlos von 512 × 512 auf 1024 × 1024 Generation übergehen und mit ausgewählten Paaren hochwertiger hochauflösender Bildtext trainiert.
Stufe 4: Optimieren Sie hochauflösende ästhetische Bildgenerierung. In diesem Stadium verwendet das Modell eine kleinere Lernrate für die Feinabstimmung und fügt menschliche Präferenzwerte als Mikrokonditions hinzu, um die Leistung des Modells bei der Erzeugung hochwertiger Bilder zu verbessern.
Meissonic zeigt eine überlegene Leistung und Effizienz durch eine Reihe von quantitativen und qualitativen Metriken, einschließlich HPS, MPS, Geneval Benchmarking und GPT4O -Bewertung. Im Vergleich zu Dall-E2 und SDXL hat Meissonic sowohl bei der menschlichen Leistung als auch in der Textausrichtung eine Wettbewerbsleistung erzielt und gleichzeitig seine Effizienz zeigt.
Zusätzlich hat Meissonic bei der Bearbeitung von Image-zu-Image-Bild-zu-Image-Bildern eine gute Leistung erzielt. Auf dem EMU-Edit-Datensatz hat Meissonic zu sieben verschiedenen Operationen zu den führenden Ergebnissen erzielt Um die Bildbearbeitungsspezifische Daten oder Anweisungssätze zu trainieren oder zu fein.
Projektadresse: https://github.com/viiika/meissonic
Papieradresse: https://arxiv.org/pdf/2410.08261
Zusammenfassend haben Meissonic -Modelle erhebliche Durchbrüche in Bezug auf Effizienz- und Bildgenerierungsqualität erzielt und neue Richtungen für die Entwicklung zukünftiger Sprachvisionsmodelle geliefert. Mit seinen leichten Funktionen können sie auf Verbraucherhardware ausgeführt und seine leistungsstarken Funktionen bei der Bearbeitung von Image mit der Stichprobe mit breiten Anwendungsaussichten demonstrieren.