ดาวน์โหลด EasyAnimate - ดาวน์โหลดซอร์สโค้ด EasyAnimate

EasyAnimate

ซอร์สโค้ดอื่น ๆ

EasyAnimateV1

ดาวน์โหลด

- อีซี่แอนนิเมท | โซลูชันแบบครบวงจรสำหรับการสร้างวิดีโอที่มีความละเอียดสูงและยาว

- EasyAnimate เป็นโซลูชั่นแบบ end-to-end สำหรับการสร้างวิดีโอที่มีความละเอียดสูงและยาว เราสามารถฝึกเครื่องกำเนิดการแพร่กระจายที่ใช้หม้อแปลง ฝึก VAE สำหรับการประมวลผลวิดีโอขนาดยาว และประมวลผลข้อมูลเมตาล่วงหน้า

- เราใช้ DIT และ Transformer เป็นตัวกระจายสัญญาณสำหรับการสร้างวิดีโอและภาพ

- ยินดีต้อนรับ!

อังกฤษ | 简体中文 | 日本語

สารบัญ

สารบัญ
การแนะนำ
เริ่มต้นอย่างรวดเร็ว
ผลลัพธ์วิดีโอ
วิธีใช้
สวนสัตว์จำลอง
รายการสิ่งที่ต้องทำ
ติดต่อเรา
อ้างอิง
ใบอนุญาต

การแนะนำ

EasyAnimate เป็นไปป์ไลน์ที่ใช้สถาปัตยกรรมหม้อแปลงไฟฟ้า ออกแบบมาเพื่อสร้างรูปภาพและวิดีโอ AI และสำหรับการฝึกอบรมโมเดลพื้นฐานและโมเดล Lora สำหรับ Diffusion Transformer เราสนับสนุนการคาดการณ์โดยตรงจากโมเดล EasyAnimate ที่ผ่านการฝึกอบรมมาแล้ว ซึ่งช่วยให้สามารถสร้างวิดีโอที่มีความละเอียดต่างๆ ความยาวประมาณ 6 วินาที ที่ 8fps (EasyAnimateV5, 1 ถึง 49 เฟรม) นอกจากนี้ ผู้ใช้สามารถฝึกฝนพื้นฐานของตนเองและโมเดล Lora สำหรับการแปลงสไตล์เฉพาะได้

เราจะรองรับการดึงข้อมูลอย่างรวดเร็วจากแพลตฟอร์มที่แตกต่างกัน โปรดดูที่การเริ่มต้นอย่างรวดเร็ว

คุณสมบัติใหม่:

อัปเดตเป็น v5 รองรับการสร้างวิดีโอสูงสุด 1024x1024, 49 เฟรม, 6 วินาที, 8fps พร้อมขยายขนาดโมเดลเป็น 12B โดยผสมผสานโครงสร้าง MMDIT และเปิดใช้งานโมเดลควบคุมด้วยอินพุตที่หลากหลาย รองรับการทำนายสองภาษาในภาษาจีนและอังกฤษ [2024.11.08]
อัปเดตเป็น v4 ช่วยให้สามารถสร้างวิดีโอได้สูงสุด 1024x1024, 144 เฟรม, 6 วินาที, 24fps; รองรับการสร้างวิดีโอจากข้อความ รูปภาพ และวิดีโอ ด้วยรุ่นเดียวที่จัดการความละเอียดตั้งแต่ 512 ถึง 1280 เปิดใช้งานการทำนายสองภาษาในภาษาจีนและอังกฤษ [2024.08.15]
อัปเดตเป็น v3 รองรับการสร้างวิดีโอสูงสุด 960x960, 144 เฟรม, 6 วินาที, 24fps จากข้อความและรูปภาพ [2024.07.01]
ModelScope-Sora “Data Director” Creative Race - Data-Juicer Big Model Data Challenge ครั้งที่ 3 เปิดตัวอย่างเป็นทางการแล้ว! โดยใช้ EasyAnimate เป็นโมเดลพื้นฐาน โดยจะสำรวจผลกระทบของการประมวลผลข้อมูลที่มีต่อการฝึกโมเดล เยี่ยมชมเว็บไซต์การแข่งขันเพื่อดูรายละเอียด [2024.06.17]
อัปเดตเป็น v2 รองรับการสร้างวิดีโอสูงสุด 768x768, 144 เฟรม, 6 วินาที, 24fps [2024.05.26]
สร้างรหัสแล้ว! ขณะนี้รองรับ Windows และ Linux [2024.04.12]

การทำงาน:

การประมวลผลข้อมูลล่วงหน้า
รถไฟ VAE
รถไฟ DiT
การสร้างวิดีโอ

อินเทอร์เฟซ UI ของเรามีดังนี้:

เริ่มต้นอย่างรวดเร็ว

1. การใช้งานคลาวด์: AliyunDSW/Docker

ก. จากอาลียุนDSW

DSW มีเวลา GPU ฟรี ซึ่งผู้ใช้สามารถใช้ได้หนึ่งครั้งและมีอายุการใช้งาน 3 เดือนหลังจากการสมัคร

Aliyun มอบเวลา GPU ฟรีใน Freetier รับและใช้ใน Aliyun PAI-DSW เพื่อเริ่ม EasyAnimate ภายใน 5 นาที!

ข. จาก ComfyUI

ComfyUI ของเรามีดังต่อไปนี้ โปรดดูรายละเอียดที่ ComfyUI README

ค. จากนักเทียบท่า

หากคุณใช้นักเทียบท่า โปรดตรวจสอบให้แน่ใจว่าได้ติดตั้งไดรเวอร์การ์ดแสดงผลและสภาพแวดล้อม CUDA ในเครื่องของคุณอย่างถูกต้อง

จากนั้นรันคำสั่งต่อไปนี้ในลักษณะนี้:

 # pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate

# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate

# clone code
git clone https://github.com/aigc-apps/EasyAnimate.git

# enter EasyAnimate's dir
cd EasyAnimate

# download weights
mkdir models/Diffusion_Transformer
mkdir models/Motion_Module
mkdir models/Personalized_Model

# Please use the hugginface link or modelscope link to download the EasyAnimateV5 model.
# I2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh-InP
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh-InP
# T2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh

2. การติดตั้งในเครื่อง: การตรวจสอบสภาพแวดล้อม/การดาวน์โหลด/การติดตั้ง

ก. การตรวจสอบสภาพแวดล้อม

เราได้ตรวจสอบการดำเนินการ EasyAnimate ในสภาพแวดล้อมต่อไปนี้:

รายละเอียดของ Windows:

ระบบปฏิบัติการ: Windows 10
หลาม: python3.10 & python3.11
ไพทอร์ช: torch2.2.0
CUDA: 11.8 และ 12.1
คัดน์: 8+
จีพียู：Nvidia-3060 12G

รายละเอียดของ Linux:

ระบบปฏิบัติการ: Ubuntu 20.04, CentOS
หลาม: python3.10 & python3.11
ไพทอร์ช: torch2.2.0
CUDA: 11.8 และ 12.1
คัดน์: 8+
GPU：Nvidia-V100 16G และ Nvidia-A10 24G และ Nvidia-A100 40G และ Nvidia-A100 80G

เราต้องการพื้นที่ว่างบนดิสก์ประมาณ 60GB (เพื่อลดน้ำหนัก) โปรดตรวจสอบ!

ข. ตุ้มน้ำหนัก

เราควรวางตุ้มน้ำหนักตามเส้นทางที่ระบุดีกว่า:

EasyAnimateV5:

 ? models/
├──  Diffusion_Transformer/
│   ├──  EasyAnimateV5-12b-zh-InP/
│   └──  EasyAnimateV5-12b-zh/
├──  Personalized_Model/
│   └── your trained trainformer model / your trained lora model (for UI load)

视频作品

ผลลัพธ์ที่แสดงทั้งหมดขึ้นอยู่กับรูปภาพ

EasyAnimateV5-12b-zh-InP

ไอ2วี

00000008.mp4

00000004.mp4

00000003.mp4

00000002.mp4

00000012.mp4

00000011.mp4

00000006.mp4

00000005.mp4

00000016.mp4

00000056.mp4

00000060.mp4

00000065.mp4

ทีทูวี

1.mp4

2.mp4

3.mp4

4.mp4

5.mp4

6.mp4

7.mp4

8.mp4

EasyAnimateV5-12b-zh-การควบคุม

demo_pose.mp4	demo_scribble.mp4	demo_deep.mp4
demo_pose_out.mp4	demo_scribble_out.mp4	demo_deep_out.mp4

วิธีใช้

1. การอนุมาน

ก. การใช้รหัสหลาม

ขั้นตอนที่ 1: ดาวน์โหลดตุ้มน้ำหนักที่เกี่ยวข้องและวางไว้ในโฟลเดอร์รุ่น
ขั้นตอนที่ 2: แก้ไข prompt, neg_prompt, Instruction_scale และ Seed ในไฟล์ Predict_t2v.py
ขั้นตอนที่ 3: เรียกใช้ไฟล์ Predict_t2v.py รอผลลัพธ์ที่สร้างขึ้น และบันทึกผลลัพธ์ในโฟลเดอร์ Samples/easyanimate-videos
ขั้นตอนที่ 4: หากคุณต้องการรวมแบ็คโบนอื่นๆ ที่คุณฝึกกับ Lora ให้แก้ไข Predict_t2v.py และ Lora_path ใน Predict_t2v.py ขึ้นอยู่กับสถานการณ์

ข. การใช้งานเว็บบุย

ขั้นตอนที่ 1: ดาวน์โหลดตุ้มน้ำหนักที่เกี่ยวข้องและวางไว้ในโฟลเดอร์รุ่น
ขั้นตอนที่ 2: เรียกใช้ไฟล์ app.py เพื่อเข้าสู่หน้ากราฟ
ขั้นตอนที่ 3: เลือกโมเดลที่สร้างขึ้นตามหน้า กรอก prompt, neg_prompt, guide_scale และ seed คลิกที่สร้าง รอผลลัพธ์ที่สร้างขึ้น และบันทึกผลลัพธ์ในโฟลเดอร์ตัวอย่าง

ค. จาก ComfyUI

โปรดดูรายละเอียดที่ ComfyUI README

ง. แผนการประหยัดหน่วยความจำ GPU

เนื่องจากพารามิเตอร์ขนาดใหญ่ของ EasyAnimateV5 เราจึงต้องพิจารณารูปแบบการบันทึกหน่วยความจำ GPU เพื่ออนุรักษ์หน่วยความจำ เราจัดเตรียมตัวเลือก GPU_memory_mode สำหรับไฟล์การทำนายแต่ละไฟล์ ซึ่งสามารถเลือกได้จาก model_cpu_offload , model_cpu_offload_and_qfloat8 และ sequential_cpu_offload

model_cpu_offload บ่งชี้ว่าโมเดลทั้งหมดจะถูกออฟโหลดไปที่ CPU หลังการใช้งาน ซึ่งจะช่วยประหยัดหน่วยความจำ GPU บางส่วน
model_cpu_offload_and_qfloat8 บ่งชี้ว่าโมเดลทั้งหมดจะถูกออฟโหลดไปที่ CPU หลังการใช้งาน และโมเดลหม้อแปลงจะถูกแปลงเป็น float8 ซึ่งช่วยประหยัดหน่วยความจำ GPU ได้มากขึ้น
sequential_cpu_offload หมายความว่าแต่ละเลเยอร์ของโมเดลจะถูกออฟโหลดไปที่ CPU หลังการใช้งาน ซึ่งช้ากว่าแต่ช่วยประหยัดหน่วยความจำ GPU ได้จำนวนมาก

2. การฝึกโมเดล

ไปป์ไลน์การฝึกอบรม EasyAnimate ที่สมบูรณ์ควรรวมถึงการประมวลผลข้อมูลล่วงหน้า การฝึกอบรม Video VAE และการฝึกอบรม Video DiT ในบรรดาสิ่งเหล่านี้ การฝึกอบรม Video VAE เป็นทางเลือก เนื่องจากเราได้จัดเตรียม Video VAE ที่ได้รับการฝึกอบรมไว้ล่วงหน้าแล้ว

ก. การประมวลผลข้อมูลล่วงหน้า

เราได้จัดเตรียมการสาธิตการฝึกโมเดล Lora อย่างง่ายผ่านข้อมูลรูปภาพ ซึ่งสามารถพบได้ในวิกิเพื่อดูรายละเอียด

ลิงก์การประมวลผลข้อมูลล่วงหน้าที่สมบูรณ์สำหรับการแบ่งส่วนวิดีโอขนาดยาว การล้าง และคำอธิบายสามารถอ้างอิงถึง README ในส่วนคำบรรยายวิดีโอ

หากคุณต้องการฝึกข้อความให้เป็นโมเดลการสร้างรูปภาพและวิดีโอ คุณต้องจัดเรียงชุดข้อมูลในรูปแบบนี้

 ? project/
├──  datasets/
│   ├──  internal_datasets/
│       ├──  train/
│       │   ├── ? 00000001.mp4
│       │   ├── ? 00000002.jpg
│       │   └── ? .....
│       └── ? json_of_internal_datasets.json

json_of_internal_datasets.json เป็นไฟล์ JSON มาตรฐาน file_path ใน json สามารถตั้งค่าเป็นพาธสัมพัทธ์ได้ ดังที่แสดงด้านล่าง:

[
    {
      "file_path" : " train/00000001.mp4 " ,
      "text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
      "type" : " video "
    },
    {
      "file_path" : " train/00000002.jpg " ,
      "text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
      "type" : " image "
    },
    .....
]

คุณยังสามารถกำหนดเส้นทางเป็นเส้นทางที่แน่นอนได้ดังนี้:

[
    {
      "file_path" : " /mnt/data/videos/00000001.mp4 " ,
      "text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
      "type" : " video "
    },
    {
      "file_path" : " /mnt/data/train/00000001.jpg " ,
      "text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
      "type" : " image "
    },
    .....
]

ข. การฝึกอบรมวิดีโอ VAE (ไม่บังคับ)

การฝึกอบรม Video VAE เป็นทางเลือกเสริม เนื่องจากเราได้จัดเตรียม Video VAE ที่ได้รับการฝึกอบรมไว้ล่วงหน้าแล้ว หากคุณต้องการฝึกอบรม video vae คุณสามารถดู README ได้ในส่วน video vae

ค. วิดีโอการฝึกอบรม DiT

หากรูปแบบข้อมูลเป็นเส้นทางสัมพัทธ์ในระหว่างการประมวลผลข้อมูลล่วงหน้า โปรดตั้งค่า scripts/train.sh ดังต่อไปนี้

 export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"

หากรูปแบบข้อมูลเป็นเส้นทางที่แน่นอนระหว่างการประมวลผลข้อมูลล่วงหน้า โปรดตั้งค่า scripts/train.sh ดังต่อไปนี้

 export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/json_of_internal_datasets.json"

จากนั้นเรารัน scripts/train.sh

sh scripts/train.sh

สำหรับรายละเอียดเกี่ยวกับการตั้งค่าพารามิเตอร์บางอย่าง โปรดดูที่ Readme Train และ Readme Lora

(ล้าสมัย) EasyAnimateV1:

หากคุณต้องการฝึก EasyAnimateV1 โปรดเปลี่ยนไปใช้สาขา git v1

สวนสัตว์จำลอง

EasyAnimateV5:

ชื่อ	พิมพ์	พื้นที่เก็บข้อมูล	กอดหน้า	ขอบเขตโมเดล	คำอธิบาย
EasyAnimateV5-12b-zh-InP	อีซี่แอนนิเมทV5	34GB	?ลิงค์	?ลิงค์	น้ำหนักภาพต่อวิดีโออย่างเป็นทางการ รองรับการทำนายวิดีโอที่ความละเอียดหลายระดับ (512, 768, 1024) ฝึกฝนด้วย 49 เฟรมที่ 8 เฟรมต่อวินาที และรองรับการทำนายสองภาษาในภาษาจีนและอังกฤษ
EasyAnimateV5-12b-zh-การควบคุม	อีซี่แอนนิเมทV5	34GB	?ลิงค์	?ลิงค์	ตุ้มน้ำหนักควบคุมวิดีโออย่างเป็นทางการ รองรับเงื่อนไขการควบคุมต่างๆ เช่น Canny, Depth, Pose, MLSD ฯลฯ รองรับการทำนายวิดีโอที่ความละเอียดหลายระดับ (512, 768, 1024) และฝึกฝนด้วย 49 เฟรมที่ 8 เฟรมต่อวินาที รองรับการทำนายสองภาษาในภาษาจีนและอังกฤษ
EasyAnimateV5-12b-zh	อีซี่แอนนิเมทV5	34GB	?ลิงค์	?ลิงค์	น้ำหนักข้อความเป็นวิดีโออย่างเป็นทางการ รองรับการทำนายวิดีโอที่ความละเอียดหลายระดับ (512, 768, 1024) ฝึกฝนด้วย 49 เฟรมที่ 8 เฟรมต่อวินาที และรองรับการทำนายสองภาษาในภาษาจีนและอังกฤษ

(ล้าสมัย) EasyAnimateV4:

ชื่อ	พิมพ์	พื้นที่เก็บข้อมูล	URL	กอดหน้า	คำอธิบาย
EasyAnimateV4-XL-2-InP.tar.gz	อีซี่แอนนิเมทV4	ก่อนแตกไฟล์: 8.9 GB / หลังแตกไฟล์: 14.0 GB	ดาวน์โหลด	?ลิงค์	โมเดลวิดีโอที่สร้างด้วยกราฟอย่างเป็นทางการของเราสามารถคาดเดาวิดีโอได้ที่ความละเอียดหลายระดับ (512, 768, 1024, 1280) และได้รับการฝึกฝนเกี่ยวกับ 144 เฟรมที่อัตรา 24 เฟรมต่อวินาที

(ล้าสมัย) EasyAnimateV3:

ชื่อ	พิมพ์	พื้นที่เก็บข้อมูล	URL	กอดหน้า	คำอธิบาย
EasyAnimateV3-XL-2-InP-512x512.tar	อีซี่แอนนิเมทV3	18.2GB	ดาวน์โหลด	?ลิงค์	น้ำหนักอย่างเป็นทางการของ EasyAnimateV3 สำหรับข้อความและรูปภาพความละเอียดวิดีโอขนาด 512x512 การฝึกด้วย 144 เฟรมและ fps 24
EasyAnimateV3-XL-2-InP-768x768.tar	อีซี่แอนนิเมทV3	18.2GB	ดาวน์โหลด	?ลิงค์	น้ำหนักอย่างเป็นทางการของ EasyAnimateV3 สำหรับข้อความและรูปภาพความละเอียดวิดีโอขนาด 768x768 การฝึกด้วย 144 เฟรมและ fps 24
EasyAnimateV3-XL-2-InP-960x960.tar	อีซี่แอนนิเมทV3	18.2GB	ดาวน์โหลด	?ลิงค์	น้ำหนักอย่างเป็นทางการของ EasyAnimateV3 สำหรับข้อความและรูปภาพถึงความละเอียดวิดีโอขนาด 960x960 การฝึกด้วย 144 เฟรมและ fps 24

(ล้าสมัย) EasyAnimateV2:

- ชื่อ | พิมพ์ | พื้นที่จัดเก็บ | ที่อยู่ | กอดหน้า | คำอธิบาย | - - EasyAnimateV2-XL-2-512x512.tar | EasyAnimateV2 | 16.2GB | [ดาวน์โหลด](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Diffusion_Transformer/EasyAnimateV2-XL-2-512x512.tar) | [?Link](https://huggingface.co/alibaba-pai/EasyAnimateV2-XL-2-512x512) | น้ำหนักอย่างเป็นทางการของ EasyAnimateV2 สำหรับความละเอียด 512x512 เทรนด้วย 144 เฟรม และ fps 24 | - EasyAnimateV2-XL-2-768x768.tar | EasyAnimateV2 | 16.2GB | [ดาวน์โหลด](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Diffusion_Transformer/EasyAnimateV2-XL-2-768x768.tar) | [?Link](https://huggingface.co/alibaba-pai/EasyAnimateV2-XL-2-768x768) | น้ำหนักอย่างเป็นทางการของ EasyAnimateV2 สำหรับความละเอียด 768x768 เทรนด้วย 144 เฟรม และ fps 24 | - easyanimatev2_minimalism_lora.safetensors | ลอร่าแห่งพิกซาร์ต | 485.1MB | [ดาวน์โหลด](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Personalized_Model/easyanimatev2_minimalism_lora.safetensors) | - การฝึกลอร่าพร้อมรูปภาพประเภทเฉพาะ สามารถดาวน์โหลดรูปภาพได้จาก [Url](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/asset/v2/Minimalism.zip) -

(ล้าสมัย) EasyAnimateV1:

1、ตุ้มน้ำหนักการเคลื่อนไหว

ชื่อ	พิมพ์	พื้นที่เก็บข้อมูล	URL	คำอธิบาย
easyanimate_v1_mm.ตัวป้องกัน	โมดูลการเคลื่อนไหว	4.1GB	ดาวน์โหลด	การฝึกด้วย 80 เฟรมและ fps 12

2、น้ำหนักอื่นๆ

ชื่อ	พิมพ์	พื้นที่เก็บข้อมูล	URL	คำอธิบาย
PixArt-XL-2-512x512.tar	พิกซาร์	11.4GB	ดาวน์โหลด	ตุ้มน้ำหนักอย่างเป็นทางการของ Pixart-Alpha
easyanimate_Portrait.safetensors	จุดตรวจของพิกซาร์ท	2.3GB	ดาวน์โหลด	การฝึกอบรมด้วยชุดข้อมูลแนวตั้งภายใน
easyanimate_Portrait_lora.safetensors	ลอรา แห่งพิกซาร์ต	654.0MB	ดาวน์โหลด	การฝึกอบรมด้วยชุดข้อมูลแนวตั้งภายใน

รายการสิ่งที่ต้องทำ

รุ่นรองรับที่มีพารามิเตอร์ใหญ่กว่า

ติดต่อเรา

ใช้ Dingding เพื่อค้นหากลุ่ม 77450006752 หรือสแกนเพื่อเข้าร่วม
คุณต้องสแกนภาพเพื่อเข้าร่วมกลุ่ม WeChat หรือหากหมดอายุแล้ว ให้เพิ่มนักเรียนคนนี้เป็นเพื่อนก่อนจึงจะเชิญคุณ