StreamingT2V 다운로드 - StreamingT2V 소스 코드 다운로드

StreamingT2V

기타 소스코드

다운로드

스트리밍SVD

SVD를 고품질의 긴 비디오 생성기로 전환하는 향상된 자동 회귀 방법

? 뉴스 | 결과 | ? 설정 | 추론

StreamingSVD를 만나보세요 - StreamingT2V 방법

StreamingSVD는 텍스트-비디오 및 이미지-비디오 생성을 위한 고급 자동 회귀 기술로, 풍부한 모션 역학을 갖춘 긴 고품질 비디오를 생성하고 SVD를 긴 비디오 생성기로 전환합니다. 우리의 방법은 비디오 전반에 걸쳐 시간적 일관성을 보장하고 입력 텍스트/이미지에 밀접하게 정렬되며 높은 프레임 수준의 이미지 품질을 유지합니다. 우리의 데모에는 8초 길이의 최대 200프레임 비디오의 성공적인 예가 포함되어 있으며 더 긴 기간 동안 확장할 수 있습니다.

기본 자동 회귀 접근 방식의 효과는 사용된 특정 기본 모델에만 국한되지 않으며, 이는 기본 모델의 개선으로 훨씬 더 높은 품질의 비디오를 생성할 수 있음을 나타냅니다. StreamingSVD는 StreamingT2V 제품군의 일부입니다. 또 다른 성공적인 구현은 Modelscope를 긴 비디오 생성기로 바꾸는 StreamingModelscope입니다. 이 접근 방식을 사용하면 최대 2분 길이의 동영상을 생성할 수 있으며 모션 양이 많고 정체 현상이 없습니다.

? 소식

* [2024/08/30] 코드 및 모델 공개! 모델 가중치는 ?HuggingFace에서 확인할 수 있습니다.

결과

자세한 결과는 프로젝트 페이지에서 확인하실 수 있습니다.

요구사항

우리 코드에는 기본 설정(200프레임 생성 시)에서 60GB의 VRAM이 필요합니다. 메모리 사용량을 줄이려면 프레임 수를 줄이거나 무작위 혼합을 활성화해 보십시오. 우리 코드는 Python 3.9 및 CUDA 11.7을 사용하여 Linux에서 테스트되었습니다.

? 설정

이 저장소를 복제하고 CUDA >= 11.7을 사용하여 요구 사항을 설치합니다.

git clone https://github.com/Picsart-AI-Research/StreamingT2V.git
cd StreamingT2V/
virtualenv -p python3.9 venv
source venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt

FFMPEG가 설치되어 있는지 확인하세요.

추론

이미지-비디오

이미지-비디오, 비디오 향상(무작위 혼합 포함) 및 비디오 프레임 보간으로 구성된 전체 파이프라인을 실행하려면 StreamingT2V 폴더에서 수행합니다.

 cd code
python inference_i2v.py --input $INPUT --output $OUTPUT

$INPUT 이미지 파일의 경로이거나 이미지가 포함된 폴더여야 합니다. 각 이미지의 가로 세로 비율은 16:9여야 합니다.

$OUTPUT 결과가 저장될 폴더의 경로여야 합니다.

초매개변수 조정

생성된 프레임 수

생성할 프레임 수를 정의하려면 호출에 --num_frames $FRAMES 추가하세요. 기본값: $FRAMES=200

무작위 혼합 사용

--use_randomized_blending $RB 호출에 추가하여 무작위 블렌딩 사용 여부를 정의합니다. 기본값: $RB=False . 무작위 블렌딩을 사용할 때 chunk_size 및 overlap_size 매개변수에 권장되는 값은 각각 --chunk_size 38 및 --overlap_size 12 입니다. 무작위 블렌딩을 사용하면 생성 속도가 느려지므로 GPU 메모리가 충분하다면 피하는 것이 좋습니다.

출력 FPS

출력 비디오의 FPS를 정의하려면 호출에 --out_fps $FPS 추가하세요. 기본값: $FPS=24

향후 계획

StreamingSVD를 설명하는 기술 보고서입니다.
텍스트-비디오용 StreamingSVD 출시.
VRAM 메모리 감소.

MAWE(모션 인식 워프 오류)

우리가 제안한 Motion Aware Warp Error (우리 논문 참조)가 여기에 제공됩니다.

스트리밍모델 범위

우리 논문에 설명된 대로 Modelscope를 기반으로 하는 StreamingT2V 모델의 코드는 이제 여기에서 찾을 수 있습니다.

특허

우리의 코드와 모델은 MIT 라이센스에 따라 게시됩니다.

SVD, EMA-VFI 및 I2VGen-XL의 코드 및 모델 가중치가 포함되어 있습니다. 코드 및 중량에 대해서는 원래 라이센스를 참조하십시오. 이러한 종속성으로 인해 StreamingSVD는 비상업적 연구 목적으로만 사용할 수 있습니다.

감사의 말

SVD: 이미지를 비디오로 변환하는 방법입니다.
단계 조정: 샘플링 일정을 최적화하는 방법입니다.
I2VGen-XL: 이미지-비디오 방식입니다.
EMA-VFI: 최첨단 비디오 프레임 보간 방법입니다.
디퓨저: 확산 모델을 위한 프레임워크입니다.

비브텍스

귀하의 연구에 우리 작업을 사용하는 경우, 우리 출판물을 인용해 주십시오:

 @article{henschel2024streamingt2v,
  title={StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text},
  author={Henschel, Roberto and Khachatryan, Levon and Hayrapetyan, Daniil and Poghosyan, Hayk and Tadevosyan, Vahram and Wang, Zhangyang and Navasardyan, Shant and Shi, Humphrey},
  journal={arXiv preprint arXiv:2403.14773},
  year={2024}
}

확장하다

추가 정보