Zhipu AI ist ein neues Open-Source-Modell. Auch alte Grafikkarten können eine neue Ära der Videogenerierung einleiten

Autor：Eve Cole Aktualisierungszeit：2024-12-07 14:16:01

Der Herausgeber von Downcodes erfuhr, dass die Zhipu AI Company kürzlich ihr neues Videogenerationsmodell CogVideoX-5B als Open Source bereitgestellt hat. Dieses Modell hat erhebliche Verbesserungen bei der Videogenerierungsqualität, den visuellen Effekten und der Inferenzleistung erzielt, was eine deutliche Verbesserung im Vergleich zum Produkt der vorherigen Generation, CogVideoX-2B, darstellt. Sogar frühe GTX 1080Ti-Karten können mit Modellen der vorherigen Generation betrieben werden, während Mainstream-Karten wie die RTX 3060 problemlos mit CogVideoX-5B umgehen können. Dies stellt eine weitere Senkung der Schwelle für hochwertige Videogenerierungstechnologie dar und bietet mehr Entwicklern und Benutzern praktische und effiziente Videogenerierungslösungen.

Kürzlich hat die Zhipu AI Company ein neues Videogenerationsmodell CogVideoX-5B als Open-Source-Lösung herausgebracht. Es übertrifft nicht nur das Produkt der vorherigen Generation, CogVideoX-2B, in Bezug auf die Videogenerierungsqualität und die visuellen Effekte, sondern auch seine Argumentationsleistung wurde erheblich verbessert, wodurch Early GTX1080Ti-Grafikkarten können mit dem Modell der vorherigen Generation betrieben werden, und Desktop-Dessert-Level-Grafikkarten wie die RTX3060 kommen problemlos mit diesem neuen Modell zurecht.

Detaillierter Parametervergleich zwischen CogVideoX-5B und CogVideoX-2B:

Dieses groß angelegte DiT-Modell (Diffusion Transformer) ist für die Durchführung von Text-zu-Video-Generierungsaufgaben konzipiert. Die dahinter stehende Technologie umfasst einen 3D-kausalen Variations-Autoencoder (3D-kausalen VAE), der eine effiziente Videorekonstruktion erreicht, indem er Videodaten in den latenten Raum komprimiert und in der zeitlichen Dimension dekodiert.

Darüber hinaus kombiniert die Verwendung von Expert Transformer Texteinbettung und Videoeinbettung, verwendet 3D-RoPE als Positionskodierung, normalisiert die Daten der beiden Modalitäten über die adaptive Expertenschicht und nutzt 3D mit voller Aufmerksamkeit. Der Kraftmechanismus wird gemeinsam im Raum modelliert und Zeit.

Code: https://top.aibase.com/tool/cogvideox

Modell-Download: https://huggingface.co/THUDM/CogVideoX-5b

Link zum Papier: https://arxiv.org/pdf/2408.06072

Die Open Source von CogVideoX-5B hat neue Durchbrüche im Bereich der Videoerzeugung gebracht, die technischen Hürden gesenkt und eine solide Grundlage für zukünftige Forschung und Anwendungen geschaffen. Der Herausgeber von Downcodes glaubt, dass diese Technologie die weitere Entwicklung der Videoerzeugungstechnologie vorantreiben und innovative Anwendungen in mehr Bereichen bringen wird.