Das Kommerzialisierungstechnologieteam von ByteDance hat sein neuestes Vincent-Graphmodell Infinity als Open Source bereitgestellt. Dieses Modell hat bedeutende Durchbrüche in der Bilderzeugungsqualität und Inferenzgeschwindigkeit erzielt und viele branchenführende Modelle wie Stable Diffusion 3 und HART et al. Die Kerninnovation des Infinity-Modells liegt in seinem einzigartigen autoregressiven Bitwise-Token-Framework und seinem unendlichen Vokabular, das es dem Modell ermöglicht, feinere Bilddetails zu erfassen und die Qualitäts- und Leistungsobergrenze der generierten Bilder erheblich zu verbessern. In diesem Artikel werden die technischen Details, die Leistung und die Open-Source-Situation des Infinity-Modells ausführlich vorgestellt.
Im Bereich der künstlichen Intelligenz ist das Infinity-Modell, die neueste Errungenschaft des Kommerzialisierungstechnologieteams von ByteDance, mit seiner hervorragenden Leistung und innovativen Technologie zum neuen König auf dem Gebiet der autoregressiven vinzentinischen Graphen geworden. Dieses neue Open-Source-Modell übertrifft Stable Diffusion3 nicht nur in der Qualität der Bilderzeugung, sondern weist auch erhebliche Vorteile bei der Inferenzgeschwindigkeit auf.
Die Kerninnovation des Infinity-Modells ist die Übernahme des autoregressiven Bitwise-Token-Frameworks. Dieses Framework verbessert die Fähigkeit des Modells, Hochfrequenzsignale zu erkennen, indem es den feinkörnigen „Bitwise-Token“ vorhersagt, der aus +1 oder -1 beim nächsten Mal besteht Auflösungsniveau, was zu detaillierteren Bildern führt. Darüber hinaus erweitert das Infinity-Modell das Vokabular ins Unendliche, wodurch der Darstellungsraum des Image-Tokenizers erheblich erweitert und die Leistungsobergrenze des autoregressiven Venogramms verbessert wird.
Im Leistungsvergleich schnitt das Infinity-Modell unter den autoregressiven Methoden hervorragend ab, übertraf HART, LlamaGen, Emu3 und andere Methoden bei weitem und besiegte das HART-Modell bei der menschlichen Bewertung mit einer Erfolgsquote von fast 90 %. Gleichzeitig besiegte Infinity auch SOTAs Diffusionsmodelle wie PixArt-Sigma, SD-XL, SD3-Meidum usw. mit Gewinnquoten von 75 %, 80 % und 65 %, was seine Vorteile gegenüber Modellen gleicher Größe unter Beweis stellte .
Ein weiteres wesentliches Merkmal des Infinity-Modells sind seine guten Skalierungseigenschaften. Wenn die Modellgröße zunimmt und Trainingsressourcen investiert werden, nimmt der Verlust des Validierungssatzes stetig ab und die Genauigkeit des Validierungssatzes nimmt stetig zu. Darüber hinaus hat Infinity auch eine Bit-Selbstkorrekturtechnologie vorgeschlagen, die die Selbstkorrekturfähigkeit des Modells verbessert und das Problem der kumulativen Fehler beim autoregressiven Denken lindert.
In Bezug auf die Inferenzgeschwindigkeit erbt Infinity den Geschwindigkeitsvorteil von VAR. Das 2B-Modell benötigt nur 0,8 Sekunden, um ein 1024x1024-Bild zu erzeugen, was dreimal schneller als SD3-Medium derselben Größe und 14-mal schneller als 12B Flux Dev ist . Das 8B-Modell ist 7-mal schneller als das SD3.5 derselben Größe. Das 20B-Modell benötigt 3 Sekunden, um ein 1024x1024-Bild zu erzeugen, was fast 4-mal schneller ist als das 12B Flux Dev.
Derzeit wurden der Trainings- und Inferenzcode, die Demo und die Modellgewichte des Infinity-Modells im GitHub-Warehouse veröffentlicht. Außerdem wird eine Website-Erfahrung bereitgestellt, um Benutzern das Ausprobieren und Bewerten des Modelleffekts zu erleichtern.
Projektseite: https://foundationvision.github.io/infinity.project/
Alles in allem hat das Infinity-Modell mit seiner fortschrittlichen technischen Architektur, hervorragenden Leistung und praktischen Open-Source-Methoden neue Durchbrüche auf dem Gebiet der autoregressiven vinzentinischen Graphen gebracht, die Aufmerksamkeit und weitere Forschung verdienen. Seine effiziente Inferenzgeschwindigkeit und die Fähigkeit zur Erzeugung hochwertiger Bilder verleihen ihm ein großes Potenzial für praktische Anwendungen.