Downcodes の編集者は、Zhipu AI Company が最近、新しいビデオ生成モデル CogVideoX-5B をオープンソース化したことを知りました。このモデルは、ビデオ生成品質、視覚効果、および推論パフォーマンスの大幅な向上を実現しており、前世代製品 CogVideoX-2B と比較して大幅に向上しています。初期の GTX 1080Ti カードでも前世代モデルを実行できますが、RTX 3060 などのメインストリーム カードは CogVideoX-5B を簡単に処理できます。これにより、高品質ビデオ生成テクノロジーの敷居がさらに下がり、より多くの開発者とユーザーに便利で効率的なビデオ生成ソリューションが提供されます。
最近、Zhipu AI Company は、新しいビデオ生成モデル CogVideoX-5B をオープンソース化しました。これは、ビデオ生成の品質と視覚効果の点で前世代の製品 CogVideoX-2B を上回るだけでなく、推論パフォーマンスも大幅に向上しており、早期に提供されています。 GTX1080Ti グラフィックス カードは前世代モデルを実行でき、RTX3060 などのデスクトップ デザート レベルのグラフィックス カードはこの新しいモデルを簡単に処理できます。
CogVideoX-5B と CogVideoX-2B のパラメータの詳細な比較:
この大規模な DiT (拡散トランス) モデルは、テキストからビデオへの生成タスクを実行するように設計されています。その背後にあるテクノロジーには、ビデオ データを潜在空間に圧縮し、時間次元でデコードすることで効率的なビデオ再構成を実現する 3D 因果変分オートエンコーダ (3D 因果 VAE) が含まれています。
さらに、Expert Transformer の使用により、テキスト埋め込みとビデオ埋め込みが結合され、位置エンコーディングとして 3D-RoPE が使用され、エキスパート アダプティブ レイヤーを通じて 2 つのモダリティのデータが正規化され、3D フル アテンションが使用されます。力のメカニズムは空間で共同モデル化されます。そして時間。
コード: https://top.aibase.com/tool/cogvideox
モデルのダウンロード: https://huggingface.co/THUDM/CogVideoX-5b
論文リンク: https://arxiv.org/pdf/2408.06072
CogVideoX-5B のオープンソースは、ビデオ生成の分野に新たなブレークスルーをもたらし、技術的な敷居を下げ、将来の研究と応用のための強固な基盤を提供しました。 Downcodes の編集者は、この技術がビデオ生成技術のさらなる発展を促進し、より多くの分野に革新的なアプリケーションをもたらすと信じています。