Das Open-Source-Projekt Open-Sora des Luchen-Teams hat bahnbrechende Fortschritte im Bereich der 720p-HD-Videoerzeugung erzielt. Seine effiziente Generierungsgeschwindigkeit und hochwertige Ausgabe sind erstaunlich. Das Projekt gewann schnell über 17,5.000 Sterne auf GitHub und erregte breite Aufmerksamkeit in der Branche, wobei sogar Lambda Labs ein digitales LEGO-Universum basierend auf seinen Modellgewichten aufbaute. Open-Sora ist nicht nur einfach zu bedienen und so bequem wie das Bestellen zum Mitnehmen, sondern, was noch wichtiger ist, es öffnet die Modellgewichte und detaillierte technische Routen, sodass mehr Entwickler und Enthusiasten teilnehmen und die Weiterentwicklung der Wensheng-Videotechnologie vorantreiben können.
Kürzlich hat das Luchen Open-Sora-Team bahnbrechende Fortschritte bei der Qualität und Erzeugungszeit von 720p-HD-Videos von Wensheng erzielt Dieses Baby ist Open Source, sodass die gesamte Community begeistert ist!
Man kann ohne Übertreibung sagen, dass ihr Open-Source-Projekt die Erstellung von Videos so einfach macht wie die Bestellung zum Mitnehmen. Seit seinem Debüt im März hat es 17,5.000 Sterne auf GitHub erhalten und ist äußerst beliebt!
Open-Source-Adresse: https://github.com/hpcaitech/Open-Sora
Open-Sora kann mit einem Klick 16-sekündige 720p-High-Definition-Videos erzeugen, egal ob es sich um exquisite Porträts, coole Science-Fiction-Blockbuster, lebendige und interessante Animationen und sanfte Zoomeffekte handelt, es kommt damit problemlos zurecht. Nein, sogar Lambda Labs, ein KI-Unternehmen, an dem Nvidia beteiligt ist, hat auf der Grundlage des Open-Sora-Modells ein digitales Lego-Universum geschaffen, das Lego-Fans eine neue Welt der Kreativität ermöglicht.
Das Luchen-Team hat nicht nur die Modellgewichte als Open Source bereitgestellt, sondern auch die technische Route auf GitHub veröffentlicht, sodass jeder Spieler zum Meister des großen Videomodells werden kann. In diesem technischen Bericht werden die Kern- und Schlüsselpunkte des Modelltrainings eingehend analysiert, vom Videokomprimierungsnetzwerk über den Diffusionsmodellalgorithmus bis hin zur Steuerbarkeit. Sie verwenden ein 1,1-B-Diffusionsgenerationsmodell, um die Schwachstellen des Videomodelltrainings zu lösen.
Berichtsadresse: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
Die Einführung des Videokomprimierungsnetzwerks erfolgt mit der gleichen Methode wie Sora von OpenAI. Es kann eine vierfache Komprimierung in der Zeitdimension ohne Frame-Extraktion durchführen und Videos mit den ursprünglichen FPS generieren. Das Team schlug außerdem ein einfaches Videokomprimierungsnetzwerk (dh VAE) vor, das zunächst eine 8x8-fache Komprimierung in der räumlichen Dimension und dann eine vierfache Komprimierung in der Zeitdimension erreichen kann.
Das neueste Diffusionsmodell von Stable Diffusion3 verbessert die Erzeugungsqualität durch gleichgerichtete Strömungstechnologie. Zu den von Luchens Team bereitgestellten Technologien gehören Korrekturtraining, Logit-Norm-Zeitschritt-Sampling usw., die das Modelltraining beschleunigen und die Wartezeit für Inferenzen verkürzen.
Der Bericht enthüllte auch die Kerndetails des Modelltrainings, einschließlich Datenbereinigung, Modelloptimierungstechniken und den Aufbau eines Modellbewertungssystems. Sie ermöglichen sogar die Bereitstellung der Gradio-Anwendung mit einem Klick, die verschiedene Parameteranpassungen unterstützt.
Die offene Quelle von Luchen Open-Sora durchbricht den geschlossenen Kreislauf und verleiht der Innovation und Entwicklung von Vincent Video Lebendigkeit. Benutzer haben sich von Inhaltskonsumenten zu Erstellern gewandelt, und Unternehmensbenutzer haben neue Fähigkeiten für die unabhängige Entwicklung freigeschaltet.
Die offene Quelle von Open-Sora senkt die Einstiegsschwelle für die Wensheng-Videotechnologie und bietet unbegrenzte Möglichkeiten für die zukünftige Generierung kreativer Inhalte. Es lohnt sich, auf die weitere Entwicklung und die Erforschung weiterer Anwendungsszenarien zu blicken.