Shanghai Step Star Intelligent Technology Co., Ltd. は、ビデオ生成モデル Step-Video の V2 バージョンを 2025 年 1 月 22 日にリリースしました。このバージョンでは、より効率的な VAE モデルや最適化された DiT アーキテクチャの採用など、ビデオ生成の効率と品質を向上させるなど、多くの点で大幅にアップグレードされています。さらに、Step-Video V2 は、自社開発のマルチモーダル理解大型モデルとビデオ知識ベースを組み合わせて、生成されたビデオを現実世界に近づけ、基本的なテキスト生成機能を追加してアプリケーション シナリオをさらに拡張します。このアップグレードは、ビデオ生成分野における Step Star の強力な技術力を実証し、ビデオ作成のためのより強力なツールを提供します。
2025 年 1 月 22 日、上海 Step-Video Intelligent Technology Co., Ltd. は、ビデオ生成モデル Step-Video が正式に V2 バージョンにアップグレードされたと発表しました。このアップグレードにより、重要な技術的進歩と機能の改善がもたらされ、実世界のシミュレーションにとってさらに強力になります。
Step-Video V2 バージョンは、複数のコア技術分野で最適化され、革新されています。まず、このバージョンでは、より高い圧縮率の VAE モデルを使用し、空間と時間を効率的に圧縮することで、計算の複雑さを大幅に軽減し、再構築の品質を確保しながら生成効率を向上させます。次に、Step-Video V2 は、DiT アーキテクチャを徹底的に最適化し、強化学習アルゴリズムを導入して、ビデオ生成の滑らかさと詳細な表現をさらに向上させます。さらに、このバージョンでは、自社開発のマルチモーダル理解大型モデルとビデオ知識ベースも組み合わせており、ビデオコンテンツとレンズ言語をより正確に記述し、現実世界に近いビデオを生成できます。
実際のアプリケーションでは、Step-Video V2 は強力な複雑なモーション生成機能を実証しており、バレエ、空手、バドミントンなどのシーンでダイナミックな映像をスムーズに表現できます。同時に、人間の表情を捉える性能にも優れ、現実または架空のキャラクターの表情や光と影の効果を繊細に表現できます。さらに、Step-Video V2 は、押す、引く、振る、シフトなどの移動方法や、さまざまなシーンの切り替えを含む豊富なレンズ言語もサポートしており、ビデオ作成の可能性がさらに広がります。
Step-Video V2 には基本的なテキスト生成機能が追加されており、ビデオ コンテンツにテキストを自然に組み込むことができ、その生成効果は前世代モデルよりも大幅に優れていることは注目に値します。この機能の追加により、映像生成の応用シーンがさらに広がります。
現在、Step-Video V2 は Yuewen Web ページ (https://yuewen.cn/videos) で試用版を公開しており、ユーザーはこのアップグレードされた強力な機能を体験することができます。
このアップグレードは、ビデオ生成分野における Step Star の技術的進歩を示すだけでなく、ビデオ作成を新たな段階に進めるためのより強力なツールをクリエイターに提供します。
Step-Video V2 のアップグレードは、ビデオ作成の分野に新たな可能性をもたらし、その強力な機能と使いやすさがユーザーにさらに便利で効率的なビデオ作成体験をもたらすでしょう。今後の発展と応用が期待されます。