Beijing Zhipu Huazhang Technology Co., Ltd. hat CogVideoX v1.5 auf den Markt gebracht. Die neueste Version dieses Videogenerationsmodells ist Open Source! Seit ihrer Veröffentlichung Anfang August hat sich die CogVideoX-Serie aufgrund ihrer führenden Technologie und entwicklerfreundlichen Funktionen schnell zu einer beliebten Wahl im Bereich der Videogenerierung entwickelt. Der Herausgeber von Downcodes erfuhr, dass CogVideoX v1.5 erhebliche Verbesserungen bei den Videogenerierungsfunktionen und Bild-zu-Video-Konvertierungsmodellen (I2V) erzielt hat, was den Benutzern ein besseres und komfortableres Erlebnis bei der Videoerstellung bietet.
Diese Open Source umfasst zwei Modelle: CogVideoX v1.5-5B und CogVideoX v1.5-5B-I2V. Sie wurden gleichzeitig auf der Qingying-Plattform eingeführt und mit dem CogSound-Soundeffektmodell kombiniert, um einen leistungsfähigeren KI-Videogenerierungsdienst bereitzustellen, der eine höhere Auflösung, variable Proportionen zur Anpassung an verschiedene Szenen, Mehrkanalausgabe und KI-Videogenerierung unterstützt mit Soundeffekten. Auf technischer Ebene verbessert CogVideoX v1.5 die Qualität der Videoerzeugung und die Kohärenz von Inhalten durch Technologien wie das automatisierte Screening-Framework, das End-to-End-Videoverständnismodell CogVLM2-caption und den effizienten dreidimensionalen Variations-Autoencoder (3D VAE) erheblich. Darüber hinaus optimiert die unabhängig entwickelte Transformer-Architektur, die die drei Dimensionen Text, Zeit und Raum integriert, die Modellleistung weiter.
Was das Training betrifft, baut CogVideoX v1.5 ein effizientes Diffusionsmodell-Trainings-Framework auf und ermöglicht ein schnelles Training langer Videosequenzen durch eine Vielzahl paralleler Berechnungs- und Zeitoptimierungstechnologien. Zhipu Huazhang sagte, dass sie die Wirksamkeit des Skalierungsgesetzes im Bereich der Videoerzeugung überprüft haben und planen, die Datenmenge und den Modellmaßstab in Zukunft zu erweitern und innovative Modellarchitekturen zu erkunden, um Videoinformationen effizienter zu komprimieren und Text und Text besser zu integrieren Videoinhalte.
Code: https://github.com/thudm/cogvideo
Modell: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
Die Open Source von CogVideoX v1.5 wird zweifellos die technologische Entwicklung und Anwendungsinnovation im Bereich der Videogenerierung weiter vorantreiben und Entwicklern leistungsfähigere Tools und Ressourcen zur Verfügung stellen. Wir freuen uns auf weitere Überraschungen aus der CogVideoX-Reihe in der Zukunft!