Das Colossal-AI-Team hat die Reproduktionslösung des Sora-Algorithmus Open-Sora als Open-Source-Lösung bereitgestellt, mit dem Ziel, die Reproduktionskosten zu senken und die Leistung zu verbessern. Diese Lösung deckt den gesamten Prozess von der Datenverarbeitung bis zur Trainingsinferenz ab, unterstützt mehrere Modellstrukturen, Videokomprimierungsmethoden und parallele Trainingsoptimierung und verbessert so die Trainingseffizienz erheblich. Open-Sora führte mit dem DiT-XL/2-Modell einen Leistungstest mit einer Sequenzlänge von 600 KB auf einer einzelnen H800 SXM 8*80 GB-GPU durch. Die Ergebnisse zeigten, dass die Leistungsverbesserung und Kostenreduzierung über 40 % betrug. Ziel dieses Projekts ist die Bereitstellung einer vollständigen und effizienten Sora-Reproduktionslösung, die Forschern und Entwicklern Komfort bietet.
Colossal-AI hat die komplette Sora-Rekurrenzarchitekturlösung Open-Sora als Open-Source-Lösung bereitgestellt und behauptet, die Wiederholungskosten um 46 % zu senken und die Länge der Modelltrainings-Eingabesequenz auf 819.000 Patches zu erweitern. Sora-Algorithmus-Reproduktionslösung Im technischen Bericht von Sora verwendet Sora ein Videokomprimierungsnetzwerk, um Videos unterschiedlicher Größe in eine Folge von räumlich-zeitlichen Blöcken in einem latenten Raum zu komprimieren, verwendet dann einen Diffusion Transformer zum Entrauschen und dekodiert schließlich, um ein Video zu generieren. Open-Sora fasst die Trainingspipeline zusammen, die Sora verwenden kann, um eine vollständige Sora-Rekursionsarchitekturlösung bereitzustellen, einschließlich des gesamten Prozesses von der Datenverarbeitung bis zur Trainingsinferenz. Derzeit bietet Open-Sora eine vollständige Sora-Rekursionsarchitekturlösung an, die den gesamten Prozess von der Datenverarbeitung bis zur Trainingsinferenz umfasst und dynamische Auflösung, mehrere Modellstrukturen, mehrere Videokomprimierungsmethoden und mehrere parallele Trainingsoptimierungen unterstützt. In Bezug auf die Leistung weist die Open-Sora-Lösung am Beispiel des Leistungstests des DiT-XL/2-Modells auf einer einzelnen H800 SXM 8*80 GB-GPU bei einer Sequenzlänge von 600 KB eine Leistungsverbesserung von mehr als 40 % auf Kosten im Vergleich zur Basislösung reduzieren. Open-Sora-Open-Source-Adresse: https://github.com/hpcaitech/Open-Sora.Open-Soras Open Source stellt Forschern und Entwicklern wertvolle Ressourcen zur Verfügung und beschleunigt die Weiterentwicklung der Videogenerierungstechnologie. Die hohe Effizienz und die geringen Kosten dürften mehr Menschen dazu ermutigen, sich an der Forschung in diesem Bereich zu beteiligen. Wir freuen uns auf die weitere Verbesserung und Entwicklung von Open-Sora in der Zukunft, um mehr zum Bereich der KI-Videogenerierung beizutragen.