Zhipu AI は、新世代のビデオ生成モデル CogVideoX をリリースしました。その中核は、ビデオ生成の効率と品質を大幅に向上させることであり、マルチモーダル テクノロジーの分野における同社の大きな進歩を示しています。 CogVideoX は技術レベルで複数の革新を達成し、Zhipu Qingyan プラットフォームを通じてユーザーに公開され、便利な AI ビデオ生成サービスを提供し、企業や開発者に API 呼び出しインターフェイスを提供します。
Zhipu AI は、新世代のビデオ生成モデル CogVideoX を発表し、同社のマルチモーダル技術開発における新たな重要な進歩を示しました。
CogVideoX の中核となる技術機能には次のようなものがあります。
三次元変分オートエンコーダ構造 (3D VAE): Zhipu AI が独自に開発したこの構造は、元のビデオ データを元のサイズの 2% に圧縮することができ、トレーニングのコストと難易度を削減します。 3D RoPE 位置エンコード モジュールと組み合わせることで、時間次元でフレーム間の関係をキャプチャする機能が向上し、ビデオの長期的な依存関係を確立します。
エンドツーエンドのビデオ理解モデル: テキストを理解して指示に従うモデルの能力を強化し、生成されたビデオがユーザーのニーズにより適合し、超長く複雑なプロンプト指示を処理できるようにします。
テキスト、時間、空間を 3 次元で統合するトランスフォーマー アーキテクチャ: Expert Block は、テキストとビデオのモーダル空間を調整するように革新的に設計されており、フル アテンション メカニズムを通じてモダリティ間のインタラクションを最適化します。
CogVideoXモデルは、Zhipu QingyanのPC、モバイルアプリケーション、ミニプログラム上で開始され、ユーザーは「Ying」機能を通じてAIテキスト生成ビデオおよび画像生成ビデオサービスを無料で体験できます。 Qingying の主な機能には、迅速な生成、効率的なコマンド追従機能、コンテンツの一貫性、および画面スケジュールの柔軟性が含まれます。
さらに、ビッグモデル用のオープンプラットフォームであるbigmodel.cnにも「Qingying」が導入されており、企業や開発者はAPI呼び出しを通じてその機能を利用できる。 Zhipu AI はビデオ生成分野におけるスケーリング則の有効性を検証しており、今後もデータ規模とモデル規模を拡大し、ビデオ情報をより効率的に圧縮し、テキストとビデオ コンテンツをより包括的に統合するための新しいモデル アーキテクチャを研究していきます。
体験アドレス: https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu
CogVideoX の開始は、ユーザーにより便利な AI ビデオ生成エクスペリエンスを提供するだけでなく、AI ビデオ生成テクノロジーが開発の新たな段階を迎えることを示しています。 Zhipu AI は将来的に、AI ビデオ生成技術の継続的な進歩を促進するために、より高度なモデル アーキテクチャと技術ソリューションを探求し続けます。