Tune-A-Video: ضبط لقطة واحدة لنماذج نشر الصور لإنشاء نص إلى فيديو
pip install -r requirements.txt
[الانتشار المستقر] يعد الانتشار المستقر نموذجًا كامنًا لنشر النص إلى الصورة قادر على إنشاء صور واقعية بالنظر إلى أي إدخال نص. يمكن تنزيل نماذج Stable Diffusion المدربة مسبقًا من Hugging Face (على سبيل المثال، Stable Diffusion v1-4، v2-1). يمكنك أيضًا استخدام نماذج Stable Diffusion المضبوطة بدقة والمدربة على أنماط مختلفة (على سبيل المثال، Modern Disney، وRedshift، وما إلى ذلك).
[DreamBooth] DreamBooth هي طريقة لتخصيص نماذج تحويل النص إلى صورة مثل Stable Diffusion مع إعطاء عدد قليل من الصور (3 ~ 5 صور) لموضوع ما. يتيح ضبط مقطع فيديو على نماذج DreamBooth إنشاء تحويل نص إلى فيديو مخصص لموضوع معين. هناك بعض نماذج DreamBooth العامة المتاحة على Hugging Face (على سبيل المثال، mr-potato-head). يمكنك أيضًا تدريب نموذج DreamBooth الخاص بك باتباع هذا المثال التدريبي.
لضبط نماذج نشر النص إلى الصورة لإنشاء النص إلى الفيديو، قم بتشغيل هذا الأمر:
accelerate launch train_tuneavideo.py --config= " configs/man-skiing.yaml "
بمجرد الانتهاء من التدريب، قم بتشغيل الاستدلال:
from tuneavideo . pipelines . pipeline_tuneavideo import TuneAVideoPipeline
from tuneavideo . models . unet import UNet3DConditionModel
from tuneavideo . util import save_videos_grid
import torch
pretrained_model_path = "./checkpoints/stable-diffusion-v1-4"
my_model_path = "./outputs/man-skiing"
unet = UNet3DConditionModel . from_pretrained ( my_model_path , subfolder = 'unet' , torch_dtype = torch . float16 ). to ( 'cuda' )
pipe = TuneAVideoPipeline . from_pretrained ( pretrained_model_path , unet = unet , torch_dtype = torch . float16 ). to ( "cuda" )
pipe . enable_xformers_memory_efficient_attention ()
pipe . enable_vae_slicing ()
prompt = "spider man is skiing"
ddim_inv_latent = torch . load ( f" { my_model_path } /inv_latents/ddim_latent-500.pt" ). to ( torch . float16 )
video = pipe ( prompt , latents = ddim_inv_latent , video_length = 24 , height = 512 , width = 512 , num_inference_steps = 50 , guidance_scale = 12.5 ). videos
save_videos_grid ( video , f"./ { prompt } .gif" )
إدخال الفيديو | فيديو الإخراج | |
"رجل يتزلج" | "المرأة المعجزة، تتزلج" | "فتاة صغيرة تتزلج" |
""الأرنب يأكل البطيخ"" | "قطة تأكل البطيخ على الطاولة" | "جرو يأكل برجر بالجبن على الطاولة، بأسلوب كوميدي" |
"سيارة جيب تسير على الطريق" | "سيارة تتحرك على الطريق بأسلوب الرسوم المتحركة" | "سيارة تتحرك على الثلج" |