- EasyAnimate เป็นโซลูชั่นแบบ end-to-end สำหรับการสร้างวิดีโอที่มีความละเอียดสูงและยาว เราสามารถฝึกเครื่องกำเนิดการแพร่กระจายที่ใช้หม้อแปลง ฝึก VAE สำหรับการประมวลผลวิดีโอขนาดยาว และประมวลผลข้อมูลเมตาล่วงหน้า
- เราใช้ DIT และ Transformer เป็นตัวกระจายสัญญาณสำหรับการสร้างวิดีโอและภาพ
- ยินดีต้อนรับ!
อังกฤษ | 简体中文 | 日本語
EasyAnimate เป็นไปป์ไลน์ที่ใช้สถาปัตยกรรมหม้อแปลงไฟฟ้า ออกแบบมาเพื่อสร้างรูปภาพและวิดีโอ AI และสำหรับการฝึกอบรมโมเดลพื้นฐานและโมเดล Lora สำหรับ Diffusion Transformer เราสนับสนุนการคาดการณ์โดยตรงจากโมเดล EasyAnimate ที่ผ่านการฝึกอบรมมาแล้ว ซึ่งช่วยให้สามารถสร้างวิดีโอที่มีความละเอียดต่างๆ ความยาวประมาณ 6 วินาที ที่ 8fps (EasyAnimateV5, 1 ถึง 49 เฟรม) นอกจากนี้ ผู้ใช้สามารถฝึกฝนพื้นฐานของตนเองและโมเดล Lora สำหรับการแปลงสไตล์เฉพาะได้
เราจะรองรับการดึงข้อมูลอย่างรวดเร็วจากแพลตฟอร์มที่แตกต่างกัน โปรดดูที่การเริ่มต้นอย่างรวดเร็ว
คุณสมบัติใหม่:
การทำงาน:
อินเทอร์เฟซ UI ของเรามีดังนี้:
DSW มีเวลา GPU ฟรี ซึ่งผู้ใช้สามารถใช้ได้หนึ่งครั้งและมีอายุการใช้งาน 3 เดือนหลังจากการสมัคร
Aliyun มอบเวลา GPU ฟรีใน Freetier รับและใช้ใน Aliyun PAI-DSW เพื่อเริ่ม EasyAnimate ภายใน 5 นาที!
ComfyUI ของเรามีดังต่อไปนี้ โปรดดูรายละเอียดที่ ComfyUI README
หากคุณใช้นักเทียบท่า โปรดตรวจสอบให้แน่ใจว่าได้ติดตั้งไดรเวอร์การ์ดแสดงผลและสภาพแวดล้อม CUDA ในเครื่องของคุณอย่างถูกต้อง
จากนั้นรันคำสั่งต่อไปนี้ในลักษณะนี้:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate
# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate
# clone code
git clone https://github.com/aigc-apps/EasyAnimate.git
# enter EasyAnimate's dir
cd EasyAnimate
# download weights
mkdir models/Diffusion_Transformer
mkdir models/Motion_Module
mkdir models/Personalized_Model
# Please use the hugginface link or modelscope link to download the EasyAnimateV5 model.
# I2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh-InP
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh-InP
# T2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh
เราได้ตรวจสอบการดำเนินการ EasyAnimate ในสภาพแวดล้อมต่อไปนี้:
รายละเอียดของ Windows:
รายละเอียดของ Linux:
เราต้องการพื้นที่ว่างบนดิสก์ประมาณ 60GB (เพื่อลดน้ำหนัก) โปรดตรวจสอบ!
เราควรวางตุ้มน้ำหนักตามเส้นทางที่ระบุดีกว่า:
EasyAnimateV5:
? models/
├── Diffusion_Transformer/
│ ├── EasyAnimateV5-12b-zh-InP/
│ └── EasyAnimateV5-12b-zh/
├── Personalized_Model/
│ └── your trained trainformer model / your trained lora model (for UI load)
ผลลัพธ์ที่แสดงทั้งหมดขึ้นอยู่กับรูปภาพ
00000008.mp4 | 00000004.mp4 | 00000003.mp4 | 00000002.mp4 |
00000012.mp4 | 00000011.mp4 | 00000006.mp4 | 00000005.mp4 |
00000016.mp4 | 00000056.mp4 | 00000060.mp4 | 00000065.mp4 |
1.mp4 | 2.mp4 | 3.mp4 | 4.mp4 |
5.mp4 | 6.mp4 | 7.mp4 | 8.mp4 |
demo_pose.mp4 | demo_scribble.mp4 | demo_deep.mp4 |
demo_pose_out.mp4 | demo_scribble_out.mp4 | demo_deep_out.mp4 |
โปรดดูรายละเอียดที่ ComfyUI README
เนื่องจากพารามิเตอร์ขนาดใหญ่ของ EasyAnimateV5 เราจึงต้องพิจารณารูปแบบการบันทึกหน่วยความจำ GPU เพื่ออนุรักษ์หน่วยความจำ เราจัดเตรียมตัวเลือก GPU_memory_mode
สำหรับไฟล์การทำนายแต่ละไฟล์ ซึ่งสามารถเลือกได้จาก model_cpu_offload
, model_cpu_offload_and_qfloat8
และ sequential_cpu_offload
model_cpu_offload
บ่งชี้ว่าโมเดลทั้งหมดจะถูกออฟโหลดไปที่ CPU หลังการใช้งาน ซึ่งจะช่วยประหยัดหน่วยความจำ GPU บางส่วนmodel_cpu_offload_and_qfloat8
บ่งชี้ว่าโมเดลทั้งหมดจะถูกออฟโหลดไปที่ CPU หลังการใช้งาน และโมเดลหม้อแปลงจะถูกแปลงเป็น float8 ซึ่งช่วยประหยัดหน่วยความจำ GPU ได้มากขึ้นsequential_cpu_offload
หมายความว่าแต่ละเลเยอร์ของโมเดลจะถูกออฟโหลดไปที่ CPU หลังการใช้งาน ซึ่งช้ากว่าแต่ช่วยประหยัดหน่วยความจำ GPU ได้จำนวนมากไปป์ไลน์การฝึกอบรม EasyAnimate ที่สมบูรณ์ควรรวมถึงการประมวลผลข้อมูลล่วงหน้า การฝึกอบรม Video VAE และการฝึกอบรม Video DiT ในบรรดาสิ่งเหล่านี้ การฝึกอบรม Video VAE เป็นทางเลือก เนื่องจากเราได้จัดเตรียม Video VAE ที่ได้รับการฝึกอบรมไว้ล่วงหน้าแล้ว
เราได้จัดเตรียมการสาธิตการฝึกโมเดล Lora อย่างง่ายผ่านข้อมูลรูปภาพ ซึ่งสามารถพบได้ในวิกิเพื่อดูรายละเอียด
ลิงก์การประมวลผลข้อมูลล่วงหน้าที่สมบูรณ์สำหรับการแบ่งส่วนวิดีโอขนาดยาว การล้าง และคำอธิบายสามารถอ้างอิงถึง README ในส่วนคำบรรยายวิดีโอ
หากคุณต้องการฝึกข้อความให้เป็นโมเดลการสร้างรูปภาพและวิดีโอ คุณต้องจัดเรียงชุดข้อมูลในรูปแบบนี้
? project/
├── datasets/
│ ├── internal_datasets/
│ ├── train/
│ │ ├── ? 00000001.mp4
│ │ ├── ? 00000002.jpg
│ │ └── ? .....
│ └── ? json_of_internal_datasets.json
json_of_internal_datasets.json เป็นไฟล์ JSON มาตรฐาน file_path ใน json สามารถตั้งค่าเป็นพาธสัมพัทธ์ได้ ดังที่แสดงด้านล่าง:
[
{
"file_path" : " train/00000001.mp4 " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " video "
},
{
"file_path" : " train/00000002.jpg " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " image "
},
.....
]
คุณยังสามารถกำหนดเส้นทางเป็นเส้นทางที่แน่นอนได้ดังนี้:
[
{
"file_path" : " /mnt/data/videos/00000001.mp4 " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " video "
},
{
"file_path" : " /mnt/data/train/00000001.jpg " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " image "
},
.....
]
การฝึกอบรม Video VAE เป็นทางเลือกเสริม เนื่องจากเราได้จัดเตรียม Video VAE ที่ได้รับการฝึกอบรมไว้ล่วงหน้าแล้ว หากคุณต้องการฝึกอบรม video vae คุณสามารถดู README ได้ในส่วน video vae
หากรูปแบบข้อมูลเป็นเส้นทางสัมพัทธ์ในระหว่างการประมวลผลข้อมูลล่วงหน้า โปรดตั้งค่า scripts/train.sh
ดังต่อไปนี้
export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"
หากรูปแบบข้อมูลเป็นเส้นทางที่แน่นอนระหว่างการประมวลผลข้อมูลล่วงหน้า โปรดตั้งค่า scripts/train.sh
ดังต่อไปนี้
export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/json_of_internal_datasets.json"
จากนั้นเรารัน scripts/train.sh
sh scripts/train.sh
สำหรับรายละเอียดเกี่ยวกับการตั้งค่าพารามิเตอร์บางอย่าง โปรดดูที่ Readme Train และ Readme Lora
EasyAnimateV5:
ชื่อ | พิมพ์ | พื้นที่เก็บข้อมูล | กอดหน้า | ขอบเขตโมเดล | คำอธิบาย |
---|---|---|---|---|---|
EasyAnimateV5-12b-zh-InP | อีซี่แอนนิเมทV5 | 34GB | ?ลิงค์ | ?ลิงค์ | น้ำหนักภาพต่อวิดีโออย่างเป็นทางการ รองรับการทำนายวิดีโอที่ความละเอียดหลายระดับ (512, 768, 1024) ฝึกฝนด้วย 49 เฟรมที่ 8 เฟรมต่อวินาที และรองรับการทำนายสองภาษาในภาษาจีนและอังกฤษ |
EasyAnimateV5-12b-zh-การควบคุม | อีซี่แอนนิเมทV5 | 34GB | ?ลิงค์ | ?ลิงค์ | ตุ้มน้ำหนักควบคุมวิดีโออย่างเป็นทางการ รองรับเงื่อนไขการควบคุมต่างๆ เช่น Canny, Depth, Pose, MLSD ฯลฯ รองรับการทำนายวิดีโอที่ความละเอียดหลายระดับ (512, 768, 1024) และฝึกฝนด้วย 49 เฟรมที่ 8 เฟรมต่อวินาที รองรับการทำนายสองภาษาในภาษาจีนและอังกฤษ |
EasyAnimateV5-12b-zh | อีซี่แอนนิเมทV5 | 34GB | ?ลิงค์ | ?ลิงค์ | น้ำหนักข้อความเป็นวิดีโออย่างเป็นทางการ รองรับการทำนายวิดีโอที่ความละเอียดหลายระดับ (512, 768, 1024) ฝึกฝนด้วย 49 เฟรมที่ 8 เฟรมต่อวินาที และรองรับการทำนายสองภาษาในภาษาจีนและอังกฤษ |
ชื่อ | พิมพ์ | พื้นที่เก็บข้อมูล | URL | กอดหน้า | คำอธิบาย |
---|---|---|---|---|---|
EasyAnimateV4-XL-2-InP.tar.gz | อีซี่แอนนิเมทV4 | ก่อนแตกไฟล์: 8.9 GB / หลังแตกไฟล์: 14.0 GB | ดาวน์โหลด | ?ลิงค์ | โมเดลวิดีโอที่สร้างด้วยกราฟอย่างเป็นทางการของเราสามารถคาดเดาวิดีโอได้ที่ความละเอียดหลายระดับ (512, 768, 1024, 1280) และได้รับการฝึกฝนเกี่ยวกับ 144 เฟรมที่อัตรา 24 เฟรมต่อวินาที |
ชื่อ | พิมพ์ | พื้นที่เก็บข้อมูล | URL | กอดหน้า | คำอธิบาย |
---|---|---|---|---|---|
EasyAnimateV3-XL-2-InP-512x512.tar | อีซี่แอนนิเมทV3 | 18.2GB | ดาวน์โหลด | ?ลิงค์ | น้ำหนักอย่างเป็นทางการของ EasyAnimateV3 สำหรับข้อความและรูปภาพความละเอียดวิดีโอขนาด 512x512 การฝึกด้วย 144 เฟรมและ fps 24 |
EasyAnimateV3-XL-2-InP-768x768.tar | อีซี่แอนนิเมทV3 | 18.2GB | ดาวน์โหลด | ?ลิงค์ | น้ำหนักอย่างเป็นทางการของ EasyAnimateV3 สำหรับข้อความและรูปภาพความละเอียดวิดีโอขนาด 768x768 การฝึกด้วย 144 เฟรมและ fps 24 |
EasyAnimateV3-XL-2-InP-960x960.tar | อีซี่แอนนิเมทV3 | 18.2GB | ดาวน์โหลด | ?ลิงค์ | น้ำหนักอย่างเป็นทางการของ EasyAnimateV3 สำหรับข้อความและรูปภาพถึงความละเอียดวิดีโอขนาด 960x960 การฝึกด้วย 144 เฟรมและ fps 24 |
ชื่อ | พิมพ์ | พื้นที่เก็บข้อมูล | URL | คำอธิบาย |
---|---|---|---|---|
easyanimate_v1_mm.ตัวป้องกัน | โมดูลการเคลื่อนไหว | 4.1GB | ดาวน์โหลด | การฝึกด้วย 80 เฟรมและ fps 12 |
ชื่อ | พิมพ์ | พื้นที่เก็บข้อมูล | URL | คำอธิบาย |
---|---|---|---|---|
PixArt-XL-2-512x512.tar | พิกซาร์ | 11.4GB | ดาวน์โหลด | ตุ้มน้ำหนักอย่างเป็นทางการของ Pixart-Alpha |
easyanimate_Portrait.safetensors | จุดตรวจของพิกซาร์ท | 2.3GB | ดาวน์โหลด | การฝึกอบรมด้วยชุดข้อมูลแนวตั้งภายใน |
easyanimate_Portrait_lora.safetensors | ลอรา แห่งพิกซาร์ต | 654.0MB | ดาวน์โหลด | การฝึกอบรมด้วยชุดข้อมูลแนวตั้งภายใน |
โครงการนี้ได้รับอนุญาตภายใต้ Apache License (เวอร์ชัน 2.0)