Zhipu AI hat eine neue Generation des Videogenerierungsmodells CogVideoX herausgebracht, dessen Kern darin besteht, die Effizienz und Qualität der Videogenerierung deutlich zu verbessern, was den großen Durchbruch des Unternehmens im Bereich der multimodalen Technologie markiert. CogVideoX hat auf technischer Ebene zahlreiche Innovationen erzielt und wurde über die Zhipu Qingyan-Plattform für Benutzer zugänglich gemacht. Es bietet praktische KI-Videogenerierungsdienste und stellt API-Aufrufschnittstellen für Unternehmen und Entwickler bereit.
Zhipu AI hat eine neue Generation des Videogenerierungsmodells CogVideoX auf den Markt gebracht und markiert damit einen weiteren wichtigen Fortschritt in der Entwicklung der multimodalen Technologie des Unternehmens.
Zu den wichtigsten technischen Funktionen von CogVideoX gehören:
Dreidimensionale Variations-Autoencoder-Struktur (3D VAE): Diese von Zhipu AI unabhängig entwickelte Struktur kann die Originalvideodaten auf 2 % der Originalgröße komprimieren und so die Kosten und die Schwierigkeit des Trainings reduzieren. In Kombination mit dem 3D-RoPE-Positionskodierungsmodul verbessert es die Fähigkeit, Beziehungen zwischen Bildern in der Zeitdimension zu erfassen und stellt langfristige Abhängigkeiten in Videos her.
End-to-End-Videoverständnismodell: Es verbessert die Fähigkeit des Modells, Text zu verstehen und Anweisungen zu befolgen, wodurch sichergestellt wird, dass das generierte Video besser den Benutzeranforderungen entspricht und extrem lange und komplexe Eingabeaufforderungsanweisungen verarbeiten kann.
Transformer-Architektur, die Text, Zeit und Raum in drei Dimensionen integriert: Expert Block wurde innovativ entwickelt, um Text- und Videomodalräume auszurichten und die Interaktion zwischen Modalitäten durch den Full Attention-Mechanismus zu optimieren.
Das CogVideoX-Modell wurde auf dem PC, mobilen Anwendungen und Miniprogrammen von Zhipu Qingyan eingeführt. Benutzer können über die „Ying“-Funktion kostenlos KI-textgenerierte Video- und bildgenerierte Videodienste erleben. Zu den Hauptmerkmalen von Qingying gehören schnelle Generierung, effiziente Befehlsverfolgungsfunktionen, Inhaltskohärenz und Flexibilität bei der Bildschirmplanung.
Darüber hinaus hat bigmodel.cn, die offene Plattform für große Models, auch „Qingying“ implementiert, und Unternehmen und Entwickler können seine Funktionen über API-Aufrufe nutzen. Zhipu AI hat die Wirksamkeit des Skalierungsgesetzes im Bereich der Videogenerierung überprüft und wird den Daten- und Modellmaßstab weiter ausbauen sowie neue Modellarchitekturen erforschen, um Videoinformationen effizienter zu komprimieren und Text- und Videoinhalte umfassender zu integrieren.
Erfahrungsadresse: https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu
Die Einführung von CogVideoX bietet Benutzern nicht nur ein komfortableres KI-Videogenerierungserlebnis, sondern zeigt auch, dass die KI-Videogenerierungstechnologie eine neue Entwicklungsstufe einläuten wird. In Zukunft wird Zhipu AI weiterhin fortschrittlichere Modellarchitekturen und technische Lösungen erforschen, um die kontinuierliche Weiterentwicklung der KI-Videogenerierungstechnologie voranzutreiben.