北京 Zhipu Huazhang Technology Co., Ltd. は、このビデオ生成モデルの最新バージョンである CogVideoX v1.5 をオープンソースとしてリリースしました。 CogVideoX シリーズは、8 月初旬のリリース以来、その最先端のテクノロジーと開発者に優しい機能により、ビデオ生成分野ですぐに人気の選択肢になりました。 Downcodes の編集者は、CogVideoX v1.5 でビデオ生成機能と画像からビデオへの変換 (I2V) モデルが大幅に向上し、ユーザーに優れた便利なビデオ作成エクスペリエンスを提供していることを知りました。
このオープン ソースには、CogVideoX v1.5-5B と CogVideoX v1.5-5B-I2V の 2 つのモデルが含まれています。これらは同時に Qingying プラットフォーム上でリリースされ、CogSound 音響効果モデルと組み合わせて、より強力な AI ビデオ生成サービスを提供し、高解像度の解像度、さまざまなシーンに適応する可変プロポーション、マルチチャンネル出力、AI ビデオ生成をサポートしています。効果音付き。技術レベルでは、CogVideoX v1.5 は、自動スクリーニング フレームワーク、エンドツーエンドのビデオ理解モデル CogVLM2 キャプション、効率的な 3 次元変分オートエンコーダー (3D VAE) などのテクノロジーを通じて、ビデオ生成の品質とコンテンツの一貫性を大幅に向上させます。さらに、テキスト、時間、空間の 3 次元を統合する独自に開発された Transformer アーキテクチャにより、モデルのパフォーマンスがさらに最適化されます。
トレーニングに関しては、CogVideoX v1.5 は効率的な拡散モデル トレーニング フレームワークを構築し、さまざまな並列コンピューティングと時間最適化テクノロジを通じて長いビデオ シーケンスの迅速なトレーニングを実現します。 Zhipu Huazhang 氏は、ビデオ生成分野におけるスケーリング則の有効性を検証しており、将来的にはデータ量とモデルの規模を拡大し、ビデオ情報をより効率的に圧縮し、テキストとテキストをより適切に統合するための革新的なモデル アーキテクチャを探索する予定であると述べました。ビデオコンテンツ。
コード: https://github.com/thudm/cogvideo
モデル: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
CogVideoX v1.5 のオープンソースは、ビデオ生成分野における技術開発とアプリケーションの革新をさらに促進し、開発者により強力なツールとリソースを提供することは間違いありません。今後も CogVideoX シリーズからさらなる驚きが生まれることを楽しみにしています。