تنزيل Video Genrator text to video - تنزيل Video Genrator text to video كود المصدر

Video Genrator text to video

شفرة المصدر الأخرى

1.0.0

تنزيل

توليد الفيديو من النص

Tune-A-Video: ضبط لقطة واحدة لنماذج نشر الصور لإنشاء نص إلى فيديو

يثبت

متطلبات

pip install -r requirements.txt

الأوزان

[الانتشار المستقر] يعد الانتشار المستقر نموذجًا كامنًا لنشر النص إلى الصورة قادر على إنشاء صور واقعية بالنظر إلى أي إدخال نص. يمكن تنزيل نماذج Stable Diffusion المدربة مسبقًا من Hugging Face (على سبيل المثال، Stable Diffusion v1-4، v2-1). يمكنك أيضًا استخدام نماذج Stable Diffusion المضبوطة بدقة والمدربة على أنماط مختلفة (على سبيل المثال، Modern Disney، وRedshift، وما إلى ذلك).

[DreamBooth] DreamBooth هي طريقة لتخصيص نماذج تحويل النص إلى صورة مثل Stable Diffusion مع إعطاء عدد قليل من الصور (3 ~ 5 صور) لموضوع ما. يتيح ضبط مقطع فيديو على نماذج DreamBooth إنشاء تحويل نص إلى فيديو مخصص لموضوع معين. هناك بعض نماذج DreamBooth العامة المتاحة على Hugging Face (على سبيل المثال، mr-potato-head). يمكنك أيضًا تدريب نموذج DreamBooth الخاص بك باتباع هذا المثال التدريبي.

الاستخدام

تمرين

لضبط نماذج نشر النص إلى الصورة لإنشاء النص إلى الفيديو، قم بتشغيل هذا الأمر:

accelerate launch train_tuneavideo.py --config= " configs/man-skiing.yaml "

الاستدلال

بمجرد الانتهاء من التدريب، قم بتشغيل الاستدلال:

 from tuneavideo . pipelines . pipeline_tuneavideo import TuneAVideoPipeline
from tuneavideo . models . unet import UNet3DConditionModel
from tuneavideo . util import save_videos_grid
import torch

pretrained_model_path = "./checkpoints/stable-diffusion-v1-4"
my_model_path = "./outputs/man-skiing"
unet = UNet3DConditionModel . from_pretrained ( my_model_path , subfolder = 'unet' , torch_dtype = torch . float16 ). to ( 'cuda' )
pipe = TuneAVideoPipeline . from_pretrained ( pretrained_model_path , unet = unet , torch_dtype = torch . float16 ). to ( "cuda" )
pipe . enable_xformers_memory_efficient_attention ()
pipe . enable_vae_slicing ()

prompt = "spider man is skiing"
ddim_inv_latent = torch . load ( f" { my_model_path } /inv_latents/ddim_latent-500.pt" ). to ( torch . float16 )
video = pipe ( prompt , latents = ddim_inv_latent , video_length = 24 , height = 512 , width = 512 , num_inference_steps = 50 , guidance_scale = 12.5 ). videos

save_videos_grid ( video , f"./ { prompt } .gif" )

نتائج

T2I المدرّب مسبقًا (الانتشار المستقر)

إدخال الفيديو	فيديو الإخراج

"رجل يتزلج"	"المرأة المعجزة، تتزلج"	"فتاة صغيرة تتزلج"

""الأرنب يأكل البطيخ""	"قطة تأكل البطيخ على الطاولة"	"جرو يأكل برجر بالجبن على الطاولة، بأسلوب كوميدي"

"سيارة جيب تسير على الطريق"	"سيارة تتحرك على الطريق بأسلوب الرسوم المتحركة"	"سيارة تتحرك على الثلج"