Descarga de video diffusion pytorch - Descarga de código fuente video diffusion pytorch

fuegos artificiales imaginados por la máquina

estos fuegos artificiales no existen

Difusión de vídeo - Pytorch

Texto a vídeo, ¡está sucediendo! Página oficial del proyecto

Implementación de modelos de difusión de video, el nuevo artículo de Jonathan Ho que extiende los DDPM a la generación de video, en Pytorch. Utiliza una red U especial factorizada en el espacio-tiempo, ampliando la generación de imágenes en 2D a vídeos en 3D.

Estado

14k para mnist en movimiento difícil (converge mucho más rápido y mejor que NUWA) - wip

Los experimentos anteriores solo son posibles gracias a los recursos proporcionados por Stability.ai

Cualquier novedad en síntesis de texto a vídeo se centralizará en Imagen-pytorch

Instalar

$ pip install video-diffusion-pytorch

Uso

 import torch
from video_diffusion_pytorch import Unet3D , GaussianDiffusion

model = Unet3D (
    dim = 64 ,
    dim_mults = ( 1 , 2 , 4 , 8 )
)

diffusion = GaussianDiffusion (
    model ,
    image_size = 32 ,
    num_frames = 5 ,
    timesteps = 1000 ,   # number of steps
    loss_type = 'l1'    # L1 or L2
)

videos = torch . randn ( 1 , 3 , 5 , 32 , 32 ) # video (batch, channels, frames, height, width) - normalized from -1 to +1
loss = diffusion ( videos )
loss . backward ()
# after a lot of training

sampled_videos = diffusion . sample ( batch_size = 4 )
sampled_videos . shape # (4, 3, 5, 32, 32)

Para condicionar el texto, derivaron incrustaciones de texto pasando primero el texto tokenizado a través de BERT-large. Entonces solo tienes que entrenarlo así.

 import torch
from video_diffusion_pytorch import Unet3D , GaussianDiffusion

model = Unet3D (
    dim = 64 ,
    cond_dim = 64 ,
    dim_mults = ( 1 , 2 , 4 , 8 )
)

diffusion = GaussianDiffusion (
    model ,
    image_size = 32 ,
    num_frames = 5 ,
    timesteps = 1000 ,   # number of steps
    loss_type = 'l1'    # L1 or L2
)

videos = torch . randn ( 2 , 3 , 5 , 32 , 32 ) # video (batch, channels, frames, height, width)
text = torch . randn ( 2 , 64 )             # assume output of BERT-large has dimension of 64

loss = diffusion ( videos , cond = text )
loss . backward ()
# after a lot of training

sampled_videos = diffusion . sample ( cond = text )
sampled_videos . shape # (2, 3, 5, 32, 32)

También puedes pasar directamente las descripciones del vídeo como cadenas, si planeas usar BERT-base para el acondicionamiento de texto.

 import torch
from video_diffusion_pytorch import Unet3D , GaussianDiffusion

model = Unet3D (
    dim = 64 ,
    use_bert_text_cond = True ,  # this must be set to True to auto-use the bert model dimensions
    dim_mults = ( 1 , 2 , 4 , 8 ),
)

diffusion = GaussianDiffusion (
    model ,
    image_size = 32 ,    # height and width of frames
    num_frames = 5 ,     # number of video frames
    timesteps = 1000 ,   # number of steps
    loss_type = 'l1'    # L1 or L2
)

videos = torch . randn ( 3 , 3 , 5 , 32 , 32 ) # video (batch, channels, frames, height, width)

text = [
    'a whale breaching from afar' ,
    'young girl blowing out candles on her birthday cake' ,
    'fireworks with blue and green sparkles'
]

loss = diffusion ( videos , cond = text )
loss . backward ()
# after a lot of training

sampled_videos = diffusion . sample ( cond = text , cond_scale = 2 )
sampled_videos . shape # (3, 3, 5, 32, 32)

Capacitación

Este repositorio también contiene una práctica clase Trainer para entrenar en una carpeta de gifs . Cada gif debe tener las dimensiones correctas image_size y num_frames .

 import torch
from video_diffusion_pytorch import Unet3D , GaussianDiffusion , Trainer

model = Unet3D (
    dim = 64 ,
    dim_mults = ( 1 , 2 , 4 , 8 ),
)

diffusion = GaussianDiffusion (
    model ,
    image_size = 64 ,
    num_frames = 10 ,
    timesteps = 1000 ,   # number of steps
    loss_type = 'l1'    # L1 or L2
). cuda ()

trainer = Trainer (
    diffusion ,
    './data' ,                         # this folder path needs to contain all your training data, as .gif files, of correct image size and number of frames
    train_batch_size = 32 ,
    train_lr = 1e-4 ,
    save_and_sample_every = 1000 ,
    train_num_steps = 700000 ,         # total training steps
    gradient_accumulate_every = 2 ,    # gradient accumulation steps
    ema_decay = 0.995 ,                # exponential moving average decay
    amp = True                        # turn on mixed precision
)

trainer . train ()

Los videos de muestra (como archivos gif ) se guardarán periódicamente en ./results , al igual que los parámetros del modelo de difusión.

Imágenes y vídeos de coentrenamiento

Una de las afirmaciones del artículo es que al realizar atención espacio-temporal factorizada, se puede obligar a la red a prestar atención al presente para entrenar imágenes y videos en conjunto, lo que lleva a mejores resultados.

No estaba claro cómo lograron esto, pero formulé una suposición.

Para llamar la atención sobre el momento presente para un cierto porcentaje de muestras de videos por lotes, simplemente pase prob_focus_present = <prob> en el método de difusión hacia adelante.

 loss = diffusion ( videos , cond = text , prob_focus_present = 0.5 ) # for 50% of videos, focus on the present during training
loss . backward ()

Si tiene una mejor idea de cómo se hace esto, simplemente abra una edición de github.

Hacer

Citas

 @misc { ho2022video ,
  title   = { Video Diffusion Models } , 
  author  = { Jonathan Ho and Tim Salimans and Alexey Gritsenko and William Chan and Mohammad Norouzi and David J. Fleet } ,
  year    = { 2022 } ,
  eprint  = { 2204.03458 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { cs.CV }
}

 @misc { Saharia2022 ,
    title   = { Imagen: unprecedented photorealism × deep level of language understanding } ,
    author  = { Chitwan Saharia*, William Chan*, Saurabh Saxena†, Lala Li†, Jay Whang†, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, Rapha Gontijo Lopes, Tim Salimans, Jonathan Ho†, David Fleet†, Mohammad Norouzi* } ,
    year    = { 2022 }
}