Zhipu AI hat sein Videogenerierungsmodell CogVideoX als Open Source bereitgestellt, ein Schritt, der darauf abzielt, die Entwicklung und Anwendungspopularisierung der Videogenerierungstechnologie zu beschleunigen. Aufgrund ihrer effizienten Leistung benötigt die CogVideoX-2B-Version nur eine einzige 4090-Grafikkarte für die Inferenz und eine einzige A6000-Grafikkarte für die Feinabstimmung, was die Einsatzschwelle erheblich senkt und eine breitere kommerzielle Nutzung ermöglicht Felder. Dieses Modell basiert auf der fortschrittlichen 3D-Variations-Autoencoder-Technologie (3D VAE) und wird mit der Experten-Transformer-Technologie kombiniert, die hochwertige Videoinhalte generieren, das Problem der fehlenden Textbeschreibung von Videodaten effektiv lösen und die Videodaten streng überprüfen kann. , um die Datenqualität des Modelltrainings sicherzustellen.
Das CogVideoX-Modell nutzt die 3D-VAE-Technologie (3D Variational Autoencoder), um gleichzeitig die räumlichen und zeitlichen Dimensionen des Videos durch dreidimensionale Faltung zu komprimieren und so höhere Komprimierungsraten und eine bessere Rekonstruktionsqualität zu erzielen. Die Modellstruktur umfasst einen Encoder, einen Decoder und einen Latentraum-Regularisierer, der die Kausalität von Informationen durch zeitlich kausale Faltung gewährleistet. Darüber hinaus wird die professionelle Transformer-Technologie verwendet, um die codierten Videodaten zu verarbeiten und sie mit Texteingaben zu kombinieren, um hochwertige Videoinhalte zu generieren. Um das CogVideoX-Modell zu trainieren, hat Zhipu AI eine Reihe von Methoden zum Screening hochwertiger Videodaten entwickelt, um Videos mit Überbearbeitung, inkohärenter Bewegung und anderen Problemen zu eliminieren und die Qualität der Daten für das Modelltraining sicherzustellen. Gleichzeitig wird das Problem der fehlenden Textbeschreibung von Videodaten durch eine Pipeline gelöst, die Videountertitel aus Bilduntertiteln generiert. In Bezug auf die Leistungsbewertung schneidet CogVideoX bei mehreren Indikatoren gut ab, darunter menschliche Aktionen, Szenen, dynamische Ebenen usw. sowie Bewertungstools, die sich auf die dynamischen Eigenschaften von Videos konzentrieren. Zhipu AI wird weiterhin Innovationen im Bereich der Videogenerierung erforschen, darunter neue Modellarchitekturen, Komprimierung von Videoinformationen sowie die Fusion von Text- und Videoinhalten.
Um das CogVideoX-Modell zu trainieren, hat Zhipu AI eine Reihe von Methoden zum Screening hochwertiger Videodaten entwickelt, um Videos mit Überbearbeitung, inkohärenter Bewegung und anderen Problemen zu eliminieren und die Qualität der Daten für das Modelltraining sicherzustellen. Gleichzeitig wird das Problem der fehlenden Textbeschreibung von Videodaten durch eine Pipeline gelöst, die Videountertitel aus Bilduntertiteln generiert.
In Bezug auf die Leistungsbewertung schneidet CogVideoX bei mehreren Indikatoren gut ab, darunter menschliche Aktionen, Szenen, dynamische Ebenen usw. sowie Bewertungstools, die sich auf die dynamischen Eigenschaften von Videos konzentrieren. Zhipu AI wird weiterhin Innovationen im Bereich der Videogenerierung erforschen, darunter neue Modellarchitekturen, Komprimierung von Videoinformationen sowie die Fusion von Text- und Videoinhalten.
Code-Repository:
https://github.com/THUDM/CogVideo
Modell-Download:
https://huggingface.co/THUDM/CogVideoX-2b
Technischer Bericht:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
Die offene Quelle von CogVideoX bietet wertvolle Ressourcen für die Forschung im Bereich der Videoerzeugungstechnologie und deutet auch darauf hin, dass dieser Bereich eine neue Entwicklungswelle einläuten wird. Seine effiziente Leistung und Benutzerfreundlichkeit werden mehr Entwickler dazu bewegen, sich an der Innovation der Videoerzeugungstechnologie zu beteiligen und ihre weit verbreitete Anwendung in verschiedenen Branchen zu fördern. Wir freuen uns auf weitere Durchbrüche von Zhipu AI in diesem Bereich in der Zukunft!