Zhipu AI は、ビデオ生成テクノロジーの開発とアプリケーションの普及を加速することを目的とした動きとして、ビデオ生成モデル CogVideoX をオープンソース化しました。 CogVideoX-2B バージョンは、その効率的なパフォーマンスにより、推論の実行に 1 枚の 4090 グラフィックス カードのみを必要とし、微調整の完了には 1 枚の A6000 グラフィックス カードのみを必要とします。これにより、使用の敷居が大幅に下がり、商業用途でより広く使用できるようになります。フィールド。このモデルは、高度な 3D 変分オートエンコーダ (3D VAE) テクノロジーに基づいており、高品質のビデオ コンテンツを生成し、ビデオ データのテキスト記述の欠如の問題を効果的に解決し、ビデオ データを厳密にスクリーニングできる専門家の Transformer テクノロジーと組み合わせられています。 、モデルトレーニングのデータ品質を保証します。
CogVideoX モデルは、3D 変分オートエンコーダー (3D VAE) テクノロジーを使用して、3 次元畳み込みを通じてビデオの空間次元と時間次元を同時に圧縮し、より高い圧縮率とより優れた再構成品質を実現します。モデル構造には、エンコーダー、デコーダー、および時間的因果畳み込みを通じて情報の因果関係を保証する潜在空間正則化装置が含まれています。さらに、専門の Transformer テクノロジーを使用して、エンコードされたビデオ データを処理し、テキスト入力と組み合わせて高品質のビデオ コンテンツを生成します。 CogVideoX モデルをトレーニングするために、Zhipu AI は高品質のビデオ データをスクリーニングするための一連の方法を開発し、過剰編集、一貫性のない動き、その他の問題のあるビデオを排除し、モデル トレーニング用のデータの品質を確保しました。同時に、ビデオデータのテキスト記述の欠如の問題は、画像字幕からビデオ字幕を生成するパイプラインを通じて解決されます。パフォーマンス評価に関しては、CogVideoX は、ビデオの動的特性に焦点を当てた評価ツールだけでなく、人の動作、シーン、ダイナミック レベルなどの複数の指標でも優れたパフォーマンスを発揮します。 Zhipu AI は、新しいモデル アーキテクチャ、ビデオ情報圧縮、テキストとビデオ コンテンツの融合など、ビデオ生成分野におけるイノベーションを引き続き模索していきます。
CogVideoX モデルをトレーニングするために、Zhipu AI は高品質のビデオ データをスクリーニングするための一連の方法を開発し、過剰編集、一貫性のない動き、その他の問題のあるビデオを排除し、モデル トレーニング用のデータの品質を確保しました。同時に、ビデオデータのテキスト記述の欠如の問題は、画像字幕からビデオ字幕を生成するパイプラインを通じて解決されます。
パフォーマンス評価に関しては、CogVideoX は、ビデオの動的特性に焦点を当てた評価ツールだけでなく、人の動作、シーン、ダイナミック レベルなどの複数の指標でも優れたパフォーマンスを発揮します。 Zhipu AI は、新しいモデル アーキテクチャ、ビデオ情報圧縮、テキストとビデオ コンテンツの融合など、ビデオ生成分野におけるイノベーションを引き続き模索していきます。
コードリポジトリ:
https://github.com/THUDM/CogVideo
モデルのダウンロード:
https://huggingface.co/THUDM/CogVideoX-2b
技術レポート:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
CogVideoX のオープンソースは、ビデオ生成技術の研究に貴重なリソースを提供するとともに、この分野が新たな開発の波を迎えることを示しています。その効率的なパフォーマンスと使いやすさにより、より多くの開発者がビデオ生成テクノロジーの革新に参加し、さまざまな業界での広範な応用が促進されるでしょう。今後、この分野で Zhipu AI がさらなるブレークスルーをもたらすことを楽しみにしています。