StreamingSVD は、テキストからビデオへの生成および画像からビデオへの生成のための高度な自己回帰技術であり、豊かなモーション ダイナミクスを備えた長い高品質ビデオを生成し、SVD を長いビデオ ジェネレーターに変えます。私たちの方法は、ビデオ全体で時間的な一貫性を確保し、入力テキスト/画像と厳密に一致させ、高いフレームレベルの画像品質を維持します。当社のデモンストレーションには、最大 200 フレーム、8 秒間のビデオの成功例が含まれており、さらに長時間に延長することもできます。
基礎となる自己回帰アプローチの有効性は、使用される特定の基本モデルに限定されません。これは、基本モデルを改善することでさらに高品質のビデオが得られることを示しています。 StreamingSVD は StreamingT2V ファミリの一部です。もう 1 つの成功した実装は StreamingModelscope です。これは Modelscope を長いビデオ ジェネレーターに変えています。この手法により、動き量が多く、停滞感のない、最大2分の動画を生成することができます。
詳細な結果はプロジェクトページでご覧いただけます。
私たちのコードは、デフォルト設定 (200 フレーム生成時) で 60 GB の VRAM を必要とします。フレーム数を減らすか、ランダム化ブレンディングを有効にしてメモリ使用量を削減してください。私たちのコードは、Python 3.9 と CUDA 11.7 を使用して Linux 上でテストされました。
git clone https://github.com/Picsart-AI-Research/StreamingT2V.git
cd StreamingT2V/
virtualenv -p python3.9 venv
source venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt
画像からビデオへの変換、ビデオ拡張 (ランダム化ブレンドを含む)、およびビデオ フレーム補間で構成されるパイプライン全体をStreamingT2V
フォルダーから実行するには、次のようにします。
cd code
python inference_i2v.py --input $INPUT --output $OUTPUT
$INPUT
、画像ファイルまたは画像を含むフォルダーへのパスである必要があります。各画像のアスペクト比は 16:9 であることが想定されます。
$OUTPUT
結果が保存されるフォルダーへのパスである必要があります。
--num_frames $FRAMES
呼び出しに追加して、生成されるフレームの数を定義します。デフォルト値: $FRAMES=200
--use_randomized_blending $RB
呼び出しに追加して、ランダム化ブレンドを使用するかどうかを定義します。デフォルト値: $RB=False
。ランダム化ブレンドを使用する場合、 chunk_size
パラメーターとoverlap_size
パラメーターの推奨値は、それぞれ--chunk_size 38
と--overlap_size 12
です。ランダムなブレンドは生成プロセスの速度を低下させることに注意してください。そのため、十分な GPU メモリがある場合は、これを避けるようにしてください。
--out_fps $FPS
呼び出しに追加して、出力ビデオの FPS を定義します。デフォルト値: $FPS=24
私たちが提案するMotion Aware Warp Error (私たちの論文を参照) はここで提供されます。
私たちの論文で説明されている、Modelscope に基づく StreamingT2V モデルのコードは、ここで見つけることができます。
私たちのコードとモデルは MIT ライセンスに基づいて公開されています。
SVD、EMA-VFI、I2VGen-XL のコードとモデルの重みが含まれています。コードと重量については、元のライセンスを参照してください。これらの依存関係のため、StreamingSVD は非営利の研究目的でのみ使用できます。
研究で私たちの成果を使用する場合は、私たちの出版物を引用してください。
@article{henschel2024streamingt2v,
title={StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text},
author={Henschel, Roberto and Khachatryan, Levon and Hayrapetyan, Daniil and Poghosyan, Hayk and Tadevosyan, Vahram and Wang, Zhangyang and Navasardyan, Shant and Shi, Humphrey},
journal={arXiv preprint arXiv:2403.14773},
year={2024}
}