Downcodes の編集者が報告しています: Zhipu 技術チームは本日、主要なオープンソース CogVideoX v1.5 ビデオ生成モデルをリリースしました。これは、8 月以来のシリーズのもう 1 つの主要なアップグレードです。新しいバージョンは、ビデオ生成機能に大きな進歩をもたらし、より長いビデオ、より高い解像度、よりスムーズなフレーム レートをサポートし、新しく発売された CogSound 音響効果モデルと組み合わせて、より優れたプレミアム ビデオをユーザーに提供する「新しいクリア ビデオ」プラットフォームを作成しました。創作体験。このアップデートにより、ビデオ品質が向上するだけでなく、複雑なセマンティクスを理解するモデルの能力も強化され、開発者により強力なツールが提供されます。
このアップデートにより、5 秒と 10 秒のビデオ長、768P 解像度、16 フレーム生成機能のサポートなど、ビデオ生成機能が大幅に向上したことがわかります。同時に、I2V (画像対ビデオ) モデルはあらゆるサイズ比もサポートし、複雑なセマンティクスを理解する能力をさらに強化します。
CogVideoX v1.5 には、CogVideoX v1.5-5B と CogVideoX v1.5-5B-I2V という 2 つの主要モデルが含まれており、開発者により強力なビデオ生成ツールを提供するように設計されています。
さらに注目すべきことは、CogVideoX v1.5 が Qingying プラットフォーム上で同時に起動され、新たに起動された CogSound 音響効果モデルと結合されて「New Qingying」となることです。 New Qingying は、ビデオ品質、美的パフォーマンス、モーションの合理性の大幅な向上を含む多くの特別なサービスを提供し、10 秒、4K、60 フレームの超高解像度ビデオの生成をサポートします。
公式の紹介文は以下の通り。
品質の向上: 品質、美的パフォーマンス、動きの合理性、および複雑なプロンプトワードの意味理解の点で Tusheng ビデオの能力が大幅に向上しました。
Ultra-HD 解像度: 10 秒、4K、および 60 フレームの超高解像度ビデオの生成をサポートします。
可変比率: さまざまな再生シナリオに適応するために任意の比率をサポートします。
マルチチャンネル出力: 同じコマンド/画像で一度に 4 つのビデオを生成できます。
効果音付き AI ビデオ: Xinqingying は、映像に合わせた効果音を生成できます。
データ処理の面では、CogVideoX チームはデータ品質の向上、不正なビデオ データをフィルタリングするための自動フィルタリング フレームワークの開発、正確なコンテンツ説明を生成するためのエンドツーエンドのビデオ理解モデル CogVLM2-caption の起動に重点を置いています。このモデルは、複雑な命令を効果的に処理し、生成されたビデオがユーザーのニーズに一致することを保証します。
コンテンツの一貫性を向上させるために、CogVideoX は効率的な 3 次元変分オートエンコーダ (3D VAE) テクノロジーを使用し、トレーニングのコストと難易度を大幅に削減します。さらに、チームはテキスト、時間、空間の 3 つの次元を統合する Transformer アーキテクチャも開発しました。従来のクロスアテンション モジュールを削除することで、テキストとビデオのインタラクティブな効果が強化され、ビデオ生成の品質が向上しました。
Zhipu 技術チームは今後もデータ量とモデルの規模を拡大し、より優れたビデオ生成エクスペリエンスを実現するために、より効率的なモデル アーキテクチャを模索していきます。 CogVideoX v1.5 のオープンソースは、開発者に強力なツールを提供するだけでなく、ビデオ作成の分野に新たな活力を注入します。
コード: https://github.com/thudm/cogvideo
モデル: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
ハイライト:
CogVideoX v1.5 の新バージョンはオープンソースで、5/10 秒のビデオ、768P 解像度、16 フレーム生成機能をサポートしています。
新しい Qingying プラットフォームが発売され、CogSound 音響効果モデルと組み合わせて、超高解像度 4K ビデオ生成を提供します。
データ処理とアルゴリズムの革新により、生成されるビデオの品質と一貫性が保証されます。
全体として、CogVideoX v1.5 のオープン ソースと新しい Qingying プラットフォームの開始は、AI ビデオ生成テクノロジにおける重要な一歩を示し、開発者とクリエイターに、より強力なツールとより広いクリエイティブ スペースをもたらします。将来的には、CogVideoX をベースにしたさらにエキサイティングなアプリケーションが登場することを楽しみにしています。