Llamagen, ein autoregressives Bildgenerierungsmodell, das von der Hongkong University und Bytedance gemeinsam entwickelt wurde, startet eine Revolution im Bereich der Bildgenerierung. Als innovative Arbeit auf der Grundlage der Lama -Architektur durchbricht es nicht nur die Grenzen des traditionellen Diffusionsmodells in der Technologie, sondern auch begeisterte Antworten in der Open -Source -Community.
Bei der ImageNet-Test-Benchmark übertraf Llamagen die Mainstream-Diffusionsmodelle wie LDM und DIT mit hervorragender Leistung. Durch die Umschulung von Image-Tokenizer hat Lamagen erhebliche Vorteile zu ImageNet- und Coco-Datensätzen erzielt, und seine Leistung hat sogar bekannte Modelle wie VQgan, Vit-Vqgan und Maskgi übertroffen.
Der Erfolg von Llamagen basiert auf drei kerntechnischen Säulen: Fortgeschrittene Bildkomprimierung/Quantisierer, skalierbares Bildgenerierungsmodell und sorgfältig geschätzte qualitativ hochwertige Trainingsdaten. Das Forschungsteam übernahm eine CNN-Architektur, die VQ-Gan ähnelt, um kontinuierliche Bilder in diskrete Token umzuwandeln.
In der ersten Trainingsphase trainierte Lamagen auf einer 50-m-Teilmenge Laion-Coco mit einer Bildauflösung von 256 × 256. Das Forschungsteam sorgte für die Qualität der Trainingsdaten durch strenge Screening -Standards, einschließlich effektiver Bild -URL, ästhetischer Punktzahl, Wasserzeichenbewertung usw. Die zweite Stufe ist eine Feinabstimmung auf interne Bilder mit hoher ästhetischer Qualität von 10 Millionen Skalen, wodurch die Bildauflösung auf 512 × 512 erhöht wird, wodurch der Erzeugungseffekt weiter optimiert wird.
Der Kernvorteil von Llamagen ist der hervorragende Image -Tokenizer und die Skalierbarkeit der Lama -Architektur. In den tatsächlichen Generationstests zeigte Llamagen eine starke Wettbewerbsfähigkeit in wichtigen Indikatoren wie FID, Präzision und Rückruf. Im Vergleich zum vorherigen autoregressiven Modell trat Llamagen auf allen Parameteraufträgen hervorragend durch und setzte einen neuen Benchmark für das Feld der Bildgenerierung ein.
Obwohl Lamagen bemerkenswerte Ergebnisse erzielt hat, sagte das Forschungsteam, dies sei erst der Beginn der stabilen Diffusions -V1 -Phase. Zukünftige Entwicklungsrichtungen werden die Unterstützung höherer Auflösung, mehr Seitenverhältnis, stärkerer Kontrollierbarkeit und neuen Bereichen wie der Videoerzeugung umfassen. Diese Pläne zeigen, dass Lamagen weiterhin Innovationen in der Bildgenerierungstechnologie in einem breiteren Bereich leiten wird.
Gegenwärtig wurde Lamagen für Online -Erfahrung geöffnet, und Benutzer können diese revolutionäre Technologie durch den Lamagen -Raum auf dem Umarmung persönlich erleben. Gleichzeitig bietet die Open -Source -Veröffentlichung von Llamagen auch eine Plattform für globale Entwickler und Forscher, um teilzunehmen und beizutragen, wodurch die Weiterentwicklung der Bildgenerierungstechnologie gemeinsam fördert. Die Projektadresse und die Online -Erlebnisadresse sind: https://top.aibase.com/tool/llamagen und https://huggingface.co/spaces/foundationvision/llamagen.