? EasyAnimate adalah solusi ujung ke ujung untuk menghasilkan video beresolusi tinggi dan panjang. Kita dapat melatih generator difusi berbasis transformator, melatih VAE untuk memproses video panjang, dan melakukan praproses metadata.
? Kami menggunakan DIT dan transformator sebagai diffuser untuk pembuatan video dan gambar.
? Selamat datang!
Bahasa Inggris | 简体中文 | 日本語
EasyAnimate adalah pipeline berdasarkan arsitektur transformator, dirancang untuk menghasilkan gambar dan video AI, dan untuk melatih model dasar dan model Lora untuk Diffusion Transformer. Kami mendukung prediksi langsung dari model EasyAnimate yang telah dilatih sebelumnya, memungkinkan pembuatan video dengan berbagai resolusi, berdurasi sekitar 6 detik, pada 8fps (EasyAnimateV5, 1 hingga 49 frame). Selain itu, pengguna dapat melatih model dasar dan Lora mereka sendiri untuk transformasi gaya tertentu.
Kami akan mendukung pull-up cepat dari berbagai platform, lihat Mulai Cepat.
Fitur Baru:
Fungsi:
Antarmuka UI kami adalah sebagai berikut:
DSW memiliki waktu GPU gratis, yang dapat diterapkan satu kali oleh pengguna dan berlaku selama 3 bulan setelah penerapan.
Aliyun menyediakan waktu GPU gratis di Freetier, dapatkan dan gunakan di Aliyun PAI-DSW untuk memulai EasyAnimate dalam 5 menit!
ComfyUI kami adalah sebagai berikut, silakan merujuk ke ComfyUI README untuk detailnya.
Jika Anda menggunakan buruh pelabuhan, pastikan driver kartu grafis dan lingkungan CUDA telah diinstal dengan benar di mesin Anda.
Kemudian jalankan perintah berikut dengan cara ini:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate
# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate
# clone code
git clone https://github.com/aigc-apps/EasyAnimate.git
# enter EasyAnimate's dir
cd EasyAnimate
# download weights
mkdir models/Diffusion_Transformer
mkdir models/Motion_Module
mkdir models/Personalized_Model
# Please use the hugginface link or modelscope link to download the EasyAnimateV5 model.
# I2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh-InP
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh-InP
# T2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh
Kami telah memverifikasi eksekusi EasyAnimate pada lingkungan berikut:
Detail Windows:
Detail Linux:
Kami membutuhkan sekitar 60GB yang tersedia di disk (untuk menghemat bobot), silakan periksa!
Sebaiknya kita menempatkan bobot di sepanjang jalur yang ditentukan:
EasyAnimateV5:
? models/
├── Diffusion_Transformer/
│ ├── EasyAnimateV5-12b-zh-InP/
│ └── EasyAnimateV5-12b-zh/
├── Personalized_Model/
│ └── your trained trainformer model / your trained lora model (for UI load)
Hasil yang ditampilkan semuanya berdasarkan gambar.
00000008.mp4 | 00000004.mp4 | 00000003.mp4 | 00000002.mp4 |
00000012.mp4 | 00000011.mp4 | 00000006.mp4 | 00000005.mp4 |
00000016.mp4 | 00000056.mp4 | 00000060.mp4 | 00000065.mp4 |
1.mp4 | 2.mp4 | 3.mp4 | 4.mp4 |
5.mp4 | 6.mp4 | 7.mp4 | 8.mp4 |
demo_pose.mp4 | demo_scribble.mp4 | demo_kedalaman.mp4 |
demo_pose_out.mp4 | demo_scribble_out.mp4 | demo_kedalaman_out.mp4 |
Silakan merujuk ke README ComfyUI untuk detailnya.
Karena parameter EasyAnimateV5 yang besar, kita perlu mempertimbangkan skema penghematan memori GPU untuk menghemat memori. Kami menyediakan opsi GPU_memory_mode
untuk setiap file prediksi, yang dapat dipilih dari model_cpu_offload
, model_cpu_offload_and_qfloat8
, dan sequential_cpu_offload
.
model_cpu_offload
menunjukkan bahwa seluruh model akan diturunkan ke CPU setelah digunakan, sehingga menghemat sebagian memori GPU.model_cpu_offload_and_qfloat8
menunjukkan bahwa seluruh model akan diturunkan ke CPU setelah digunakan, dan model transformator dikuantisasi menjadi float8, sehingga menghemat lebih banyak memori GPU.sequential_cpu_offload
berarti setiap lapisan model akan diturunkan ke CPU setelah digunakan, yang lebih lambat namun menghemat sejumlah besar memori GPU.Alur pelatihan EasyAnimate yang lengkap harus mencakup prapemrosesan data, pelatihan Video VAE, dan pelatihan Video DiT. Di antaranya, pelatihan Video VAE bersifat opsional karena kami telah menyediakan Video VAE yang telah dilatih sebelumnya.
Kami telah menyediakan demo sederhana pelatihan model Lora melalui data gambar, yang dapat ditemukan di wiki untuk detailnya.
Link preprocessing data lengkap untuk segmentasi, pembersihan, dan deskripsi video panjang dapat mengacu pada README di bagian caption video.
Jika Anda ingin melatih model pembuatan teks ke gambar dan video. Anda perlu mengatur dataset dalam format ini.
? project/
├── datasets/
│ ├── internal_datasets/
│ ├── train/
│ │ ├── ? 00000001.mp4
│ │ ├── ? 00000002.jpg
│ │ └── ? .....
│ └── ? json_of_internal_datasets.json
json_of_internal_datasets.json adalah file JSON standar. File_path di json dapat disetel sebagai jalur relatif, seperti yang ditunjukkan di bawah ini:
[
{
"file_path" : " train/00000001.mp4 " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " video "
},
{
"file_path" : " train/00000002.jpg " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " image "
},
.....
]
Anda juga dapat mengatur jalur sebagai jalur absolut sebagai berikut:
[
{
"file_path" : " /mnt/data/videos/00000001.mp4 " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " video "
},
{
"file_path" : " /mnt/data/train/00000001.jpg " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " image "
},
.....
]
Pelatihan Video VAE adalah opsi opsional karena kami telah menyediakan Video VAE yang telah dilatih sebelumnya. Jika Anda ingin melatih video vae, Anda dapat merujuk ke README di bagian video vae.
Jika format data adalah jalur relatif selama prapemrosesan data, harap atur scripts/train.sh
sebagai berikut.
export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"
Jika format data adalah jalur absolut selama prapemrosesan data, harap atur scripts/train.sh
sebagai berikut.
export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/json_of_internal_datasets.json"
Lalu, kita jalankan scripts/train.sh.
sh scripts/train.sh
Untuk detail tentang pengaturan beberapa parameter, silakan merujuk ke Readme Train dan Readme Lora.
EasyAnimateV5:
Nama | Jenis | Ruang Penyimpanan | Memeluk Wajah | Ruang Lingkup Model | Keterangan |
---|---|---|---|---|---|
EasyAnimateV5-12b-zh-InP | EasyAnimateV5 | 34 GB | ?Link | ?Link | Bobot gambar-ke-video resmi. Mendukung prediksi video pada berbagai resolusi (512, 768, 1024), dilatih dengan 49 frame pada 8 frame per detik, dan mendukung prediksi bilingual dalam bahasa Mandarin dan Inggris. |
Kontrol EasyAnimateV5-12b-zh | EasyAnimateV5 | 34 GB | ?Link | ?Link | Bobot kontrol video resmi, mendukung berbagai kondisi kontrol seperti Canny, Depth, Pose, MLSD, dll. Mendukung prediksi video pada berbagai resolusi (512, 768, 1024) dan dilatih dengan 49 frame pada 8 frame per detik. Prediksi bilingual dalam bahasa Cina dan Inggris didukung. |
EasyAnimateV5-12b-zh | EasyAnimateV5 | 34 GB | ?Link | ?Link | Bobot teks-ke-video resmi. Mendukung prediksi video pada berbagai resolusi (512, 768, 1024), dilatih dengan 49 frame pada 8 frame per detik, dan mendukung prediksi bilingual dalam bahasa Mandarin dan Inggris. |
Nama | Jenis | Ruang Penyimpanan | Url | Memeluk Wajah | Keterangan |
---|---|---|---|---|---|
EasyAnimateV4-XL-2-InP.tar.gz | EasyAnimateV4 | Sebelum ekstraksi: 8,9 GB / Setelah ekstraksi: 14,0 GB | Unduh | ?Link | Model video resmi kami yang dihasilkan grafik mampu memprediksi video pada berbagai resolusi (512, 768, 1024, 1280) dan telah dilatih pada 144 frame dengan kecepatan 24 frame per detik. |
Nama | Jenis | Ruang Penyimpanan | Url | Memeluk Wajah | Keterangan |
---|---|---|---|---|---|
EasyAnimateV3-XL-2-InP-512x512.tar | EasyAnimateV3 | 18.2GB | Unduh | ?Link | Bobot resmi EasyAnimateV3 untuk resolusi teks dan gambar ke video 512x512. Pelatihan dengan 144 frame dan fps 24 |
EasyAnimateV3-XL-2-InP-768x768.tar | EasyAnimateV3 | 18.2GB | Unduh | ?Link | Bobot resmi EasyAnimateV3 untuk resolusi teks dan gambar ke video 768x768. Pelatihan dengan 144 frame dan fps 24 |
EasyAnimateV3-XL-2-InP-960x960.tar | EasyAnimateV3 | 18.2GB | Unduh | ?Link | Bobot resmi EasyAnimateV3 untuk resolusi teks dan gambar ke video 960x960. Pelatihan dengan 144 frame dan fps 24 |
Nama | Jenis | Ruang Penyimpanan | Url | Keterangan |
---|---|---|---|---|
easyanimate_v1_mm.safetensors | Modul Gerak | 4.1GB | unduh | Pelatihan dengan 80 frame dan fps 12 |
Nama | Jenis | Ruang Penyimpanan | Url | Keterangan |
---|---|---|---|---|
PixArt-XL-2-512x512.tar | Pixart | 11.4GB | unduh | Bobot resmi Pixart-Alpha |
easyanimate_portrait.safetensors | Pos pemeriksaan Pixart | 2.3GB | unduh | Pelatihan dengan kumpulan data potret internal |
easyanimate_portrait_lora.safetensors | Lora dari Pixart | 654.0MB | unduh | Pelatihan dengan kumpulan data potret internal |
Proyek ini dilisensikan di bawah Lisensi Apache (Versi 2.0).