Implementasi Lumiere, pembuatan teks-ke-video SOTA dari Google Deepmind, di Pytorch
Ulasan makalah Yannic
Karena makalah ini sebagian besar hanya berisi beberapa gagasan utama selain model teks-ke-gambar, kami akan mengambil langkah lebih jauh dan memperluas Karras U-net baru ke video dalam repositori ini.
$ pip install lumiere-pytorch
import torch
from lumiere_pytorch import MPLumiere
from denoising_diffusion_pytorch import KarrasUnet
karras_unet = KarrasUnet (
image_size = 256 ,
dim = 8 ,
channels = 3 ,
dim_max = 768 ,
)
lumiere = MPLumiere (
karras_unet ,
image_size = 256 ,
unet_time_kwarg = 'time' ,
conv_module_names = [
'downs.1' ,
'ups.1' ,
'downs.2' ,
'ups.2' ,
],
attn_module_names = [
'mids.0'
],
upsample_module_names = [
'ups.2' ,
'ups.1' ,
],
downsample_module_names = [
'downs.1' ,
'downs.2'
]
)
noised_video = torch . randn ( 2 , 3 , 8 , 256 , 256 )
time = torch . ones ( 2 ,)
denoised_video = lumiere ( noised_video , time = time )
assert noised_video . shape == denoised_video . shape
tambahkan semua lapisan temporal
hanya mengekspos parameter temporal untuk pembelajaran, membekukan yang lainnya
mencari cara terbaik untuk menangani pengondisian waktu setelah downsampling temporal - alih-alih melakukan transformasi pytree di awal, mungkin perlu menghubungkan ke semua modul dan memeriksa ukuran batch
menangani modul tengah yang mungkin memiliki bentuk keluaran sebagai (batch, seq, dim)
mengikuti kesimpulan Tero Karras, lakukan improvisasi varian dari 4 modul dengan pelestarian magnitudo
uji di imagen-pytorch
lihat multi-difusi dan lihat apakah itu bisa diubah menjadi pembungkus sederhana
@inproceedings { BarTal2024LumiereAS ,
title = { Lumiere: A Space-Time Diffusion Model for Video Generation } ,
author = { Omer Bar-Tal and Hila Chefer and Omer Tov and Charles Herrmann and Roni Paiss and Shiran Zada and Ariel Ephrat and Junhwa Hur and Yuanzhen Li and Tomer Michaeli and Oliver Wang and Deqing Sun and Tali Dekel and Inbar Mosseri } ,
year = { 2024 } ,
url = { https://api.semanticscholar.org/CorpusID:267095113 }
}
@article { Karras2023AnalyzingAI ,
title = { Analyzing and Improving the Training Dynamics of Diffusion Models } ,
author = { Tero Karras and Miika Aittala and Jaakko Lehtinen and Janne Hellsten and Timo Aila and Samuli Laine } ,
journal = { ArXiv } ,
year = { 2023 } ,
volume = { abs/2312.02696 } ,
url = { https://api.semanticscholar.org/CorpusID:265659032 }
}