StreamingSVD는 텍스트-비디오 및 이미지-비디오 생성을 위한 고급 자동 회귀 기술로, 풍부한 모션 역학을 갖춘 긴 고품질 비디오를 생성하고 SVD를 긴 비디오 생성기로 전환합니다. 우리의 방법은 비디오 전반에 걸쳐 시간적 일관성을 보장하고 입력 텍스트/이미지에 밀접하게 정렬되며 높은 프레임 수준의 이미지 품질을 유지합니다. 우리의 데모에는 8초 길이의 최대 200프레임 비디오의 성공적인 예가 포함되어 있으며 더 긴 기간 동안 확장할 수 있습니다.
기본 자동 회귀 접근 방식의 효과는 사용된 특정 기본 모델에만 국한되지 않으며, 이는 기본 모델의 개선으로 훨씬 더 높은 품질의 비디오를 생성할 수 있음을 나타냅니다. StreamingSVD는 StreamingT2V 제품군의 일부입니다. 또 다른 성공적인 구현은 Modelscope를 긴 비디오 생성기로 바꾸는 StreamingModelscope입니다. 이 접근 방식을 사용하면 최대 2분 길이의 동영상을 생성할 수 있으며 모션 양이 많고 정체 현상이 없습니다.
자세한 결과는 프로젝트 페이지에서 확인하실 수 있습니다.
우리 코드에는 기본 설정(200프레임 생성 시)에서 60GB의 VRAM이 필요합니다. 메모리 사용량을 줄이려면 프레임 수를 줄이거나 무작위 혼합을 활성화해 보십시오. 우리 코드는 Python 3.9 및 CUDA 11.7을 사용하여 Linux에서 테스트되었습니다.
git clone https://github.com/Picsart-AI-Research/StreamingT2V.git
cd StreamingT2V/
virtualenv -p python3.9 venv
source venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt
이미지-비디오, 비디오 향상(무작위 혼합 포함) 및 비디오 프레임 보간으로 구성된 전체 파이프라인을 실행하려면 StreamingT2V
폴더에서 수행합니다.
cd code
python inference_i2v.py --input $INPUT --output $OUTPUT
$INPUT
이미지 파일의 경로이거나 이미지가 포함된 폴더여야 합니다. 각 이미지의 가로 세로 비율은 16:9여야 합니다.
$OUTPUT
결과가 저장될 폴더의 경로여야 합니다.
생성할 프레임 수를 정의하려면 호출에 --num_frames $FRAMES
추가하세요. 기본값: $FRAMES=200
--use_randomized_blending $RB
호출에 추가하여 무작위 블렌딩 사용 여부를 정의합니다. 기본값: $RB=False
. 무작위 블렌딩을 사용할 때 chunk_size
및 overlap_size
매개변수에 권장되는 값은 각각 --chunk_size 38
및 --overlap_size 12
입니다. 무작위 블렌딩을 사용하면 생성 속도가 느려지므로 GPU 메모리가 충분하다면 피하는 것이 좋습니다.
출력 비디오의 FPS를 정의하려면 호출에 --out_fps $FPS
추가하세요. 기본값: $FPS=24
우리가 제안한 Motion Aware Warp Error (우리 논문 참조)가 여기에 제공됩니다.
우리 논문에 설명된 대로 Modelscope를 기반으로 하는 StreamingT2V 모델의 코드는 이제 여기에서 찾을 수 있습니다.
우리의 코드와 모델은 MIT 라이센스에 따라 게시됩니다.
SVD, EMA-VFI 및 I2VGen-XL의 코드 및 모델 가중치가 포함되어 있습니다. 코드 및 중량에 대해서는 원래 라이센스를 참조하십시오. 이러한 종속성으로 인해 StreamingSVD는 비상업적 연구 목적으로만 사용할 수 있습니다.
귀하의 연구에 우리 작업을 사용하는 경우, 우리 출판물을 인용해 주십시오:
@article{henschel2024streamingt2v,
title={StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text},
author={Henschel, Roberto and Khachatryan, Levon and Hayrapetyan, Daniil and Poghosyan, Hayk and Tadevosyan, Vahram and Wang, Zhangyang and Navasardyan, Shant and Shi, Humphrey},
journal={arXiv preprint arXiv:2403.14773},
year={2024}
}