? EasyAnimate ist eine End-to-End-Lösung zur Erstellung hochauflösender und langer Videos. Wir können transformatorbasierte Diffusionsgeneratoren trainieren, VAEs für die Verarbeitung langer Videos trainieren und Metadaten vorverarbeiten.
? Wir verwenden DIT und Transformator als Diffusor für die Video- und Bilderzeugung.
? Willkommen!
Englisch | 简体中文 | 日本語
EasyAnimate ist eine Pipeline, die auf der Transformer-Architektur basiert und zum Generieren von KI-Bildern und -Videos sowie zum Trainieren von Basismodellen und Lora-Modellen für Diffusion Transformer entwickelt wurde. Wir unterstützen die direkte Vorhersage von vorab trainierten EasyAnimate-Modellen und ermöglichen die Generierung von Videos mit verschiedenen Auflösungen, etwa 6 Sekunden Länge und 8 Bildern pro Sekunde (EasyAnimateV5, 1 bis 49 Bilder). Darüber hinaus können Benutzer ihre eigenen Basis- und Lora-Modelle für bestimmte Stiltransformationen trainieren.
Wir unterstützen schnelle Klimmzüge von verschiedenen Plattformen aus, siehe Schnellstart.
Neue Funktionen:
Funktion:
Unsere Benutzeroberfläche sieht wie folgt aus:
DSW verfügt über kostenlose GPU-Zeit, die von einem Benutzer einmalig angewendet werden kann und nach der Beantragung 3 Monate lang gültig ist.
Aliyun bietet kostenlose GPU-Zeit in Freetier. Holen Sie es sich und nutzen Sie es in Aliyun PAI-DSW, um EasyAnimate innerhalb von 5 Minuten zu starten!
Unsere ComfyUI sieht wie folgt aus. Weitere Informationen finden Sie in der ComfyUI README.
Wenn Sie Docker verwenden, stellen Sie bitte sicher, dass der Grafikkartentreiber und die CUDA-Umgebung korrekt auf Ihrem Computer installiert sind.
Führen Sie dann auf diese Weise die folgenden Befehle aus:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate
# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate
# clone code
git clone https://github.com/aigc-apps/EasyAnimate.git
# enter EasyAnimate's dir
cd EasyAnimate
# download weights
mkdir models/Diffusion_Transformer
mkdir models/Motion_Module
mkdir models/Personalized_Model
# Please use the hugginface link or modelscope link to download the EasyAnimateV5 model.
# I2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh-InP
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh-InP
# T2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh
Wir haben die Ausführung von EasyAnimate in der folgenden Umgebung überprüft:
Das Detail von Windows:
Das Detail von Linux:
Wir benötigen etwa 60 GB auf der Festplatte (um Gewicht zu sparen), bitte überprüfen!
Wir platzieren die Gewichte besser entlang des angegebenen Pfads:
EasyAnimateV5:
? models/
├── Diffusion_Transformer/
│ ├── EasyAnimateV5-12b-zh-InP/
│ └── EasyAnimateV5-12b-zh/
├── Personalized_Model/
│ └── your trained trainformer model / your trained lora model (for UI load)
Die angezeigten Ergebnisse basieren alle auf Bildern.
00000008.mp4 | 00000004.mp4 | 00000003.mp4 | 00000002.mp4 |
00000012.mp4 | 00000011.mp4 | 00000006.mp4 | 00000005.mp4 |
00000016.mp4 | 00000056.mp4 | 00000060.mp4 | 00000065.mp4 |
1.mp4 | 2.mp4 | 3.mp4 | 4.mp4 |
5.mp4 | 6.mp4 | 7.mp4 | 8.mp4 |
demo_pose.mp4 | demo_scribble.mp4 | demo_tiefe.mp4 |
demo_pose_out.mp4 | demo_scribble_out.mp4 | demo_ Depth_out.mp4 |
Weitere Informationen finden Sie in der README-Datei von ComfyUI.
Aufgrund der großen Parameter von EasyAnimateV5 müssen wir GPU-Speichersparschemata in Betracht ziehen, um Speicher zu sparen. Wir stellen für jede Vorhersagedatei eine GPU_memory_mode
Option bereit, die aus model_cpu_offload
, model_cpu_offload_and_qfloat8
und sequential_cpu_offload
ausgewählt werden kann.
model_cpu_offload
gibt an, dass das gesamte Modell nach der Verwendung auf die CPU ausgelagert wird, wodurch GPU-Speicher gespart wird.model_cpu_offload_and_qfloat8
gibt an, dass das gesamte Modell nach der Verwendung auf die CPU ausgelagert wird und das Transformatormodell auf float8 quantisiert wird, wodurch noch mehr GPU-Speicher gespart wird.sequential_cpu_offload
bedeutet, dass jede Schicht des Modells nach der Verwendung auf die CPU ausgelagert wird, was langsamer ist, aber eine erhebliche Menge an GPU-Speicher spart.Eine vollständige EasyAnimate-Schulungspipeline sollte Datenvorverarbeitung, Video-VAE-Schulung und Video-DiT-Schulung umfassen. Unter diesen ist die Video-VAE-Schulung optional, da wir bereits eine vorab trainierte Video-VAE bereitgestellt haben.
Wir haben eine einfache Demo zum Training des Lora-Modells mithilfe von Bilddaten bereitgestellt, die im Wiki für weitere Details zu finden ist.
Einen vollständigen Link zur Datenvorverarbeitung für die Segmentierung, Bereinigung und Beschreibung langer Videos finden Sie in der README-Datei im Abschnitt mit den Videountertiteln.
Wenn Sie ein Text-zu-Bild- und Video-Generierungsmodell trainieren möchten. Sie müssen den Datensatz in diesem Format anordnen.
? project/
├── datasets/
│ ├── internal_datasets/
│ ├── train/
│ │ ├── ? 00000001.mp4
│ │ ├── ? 00000002.jpg
│ │ └── ? .....
│ └── ? json_of_internal_datasets.json
Die json_of_internal_datasets.json ist eine Standard-JSON-Datei. Der Dateipfad im JSON kann als relativer Pfad festgelegt werden, wie unten gezeigt:
[
{
"file_path" : " train/00000001.mp4 " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " video "
},
{
"file_path" : " train/00000002.jpg " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " image "
},
.....
]
Sie können den Pfad auch wie folgt als absoluten Pfad festlegen:
[
{
"file_path" : " /mnt/data/videos/00000001.mp4 " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " video "
},
{
"file_path" : " /mnt/data/train/00000001.jpg " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " image "
},
.....
]
Die Video-VAE-Schulung ist eine optionale Option, da wir bereits vorab trainierte Video-VAEs bereitgestellt haben. Wenn Sie Video-Vae trainieren möchten, können Sie die README-Datei im Abschnitt Video-Vae lesen.
Wenn das Datenformat während der Datenvorverarbeitung ein relativer Pfad ist, legen Sie scripts/train.sh
wie folgt fest.
export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"
Wenn das Datenformat während der Datenvorverarbeitung ein absoluter Pfad ist, legen Sie scripts/train.sh
wie folgt fest.
export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/json_of_internal_datasets.json"
Dann führen wir scripts/train.sh aus.
sh scripts/train.sh
Einzelheiten zum Festlegen einiger Parameter finden Sie in Readme Train und Readme Lora.
EasyAnimateV5:
Name | Typ | Stauraum | Umarmendes Gesicht | Modellumfang | Beschreibung |
---|---|---|---|---|---|
EasyAnimateV5-12b-zh-InP | EasyAnimateV5 | 34 GB | ?Link | ?Link | Offizielle Bild-zu-Video-Gewichte. Unterstützt Videovorhersage mit mehreren Auflösungen (512, 768, 1024), trainiert mit 49 Bildern bei 8 Bildern pro Sekunde und unterstützt zweisprachige Vorhersage in Chinesisch und Englisch. |
EasyAnimateV5-12b-zh-Control | EasyAnimateV5 | 34 GB | ?Link | ?Link | Offizielle Videokontrollgewichte, die verschiedene Kontrollbedingungen wie Canny, Depth, Pose, MLSD usw. unterstützen. Unterstützt Videovorhersage bei mehreren Auflösungen (512, 768, 1024) und wird mit 49 Bildern bei 8 Bildern pro Sekunde trainiert. Die zweisprachige Vorhersage in Chinesisch und Englisch wird unterstützt. |
EasyAnimateV5-12b-zh | EasyAnimateV5 | 34 GB | ?Link | ?Link | Offizielle Text-zu-Video-Gewichte. Unterstützt Videovorhersage mit mehreren Auflösungen (512, 768, 1024), trainiert mit 49 Bildern bei 8 Bildern pro Sekunde und unterstützt zweisprachige Vorhersage in Chinesisch und Englisch. |
Name | Typ | Stauraum | URL | Umarmendes Gesicht | Beschreibung |
---|---|---|---|---|---|
EasyAnimateV4-XL-2-InP.tar.gz | EasyAnimateV4 | Vor der Extraktion: 8,9 GB / Nach der Extraktion: 14,0 GB | Herunterladen | ?Link | Unser offizielles diagrammgeneriertes Videomodell ist in der Lage, Videos mit mehreren Auflösungen (512, 768, 1024, 1280) vorherzusagen und wurde auf 144 Bildern mit einer Rate von 24 Bildern pro Sekunde trainiert. |
Name | Typ | Stauraum | URL | Umarmendes Gesicht | Beschreibung |
---|---|---|---|---|---|
EasyAnimateV3-XL-2-InP-512x512.tar | EasyAnimateV3 | 18,2 GB | Herunterladen | ?Link | Offizielle EasyAnimateV3-Gewichte für eine Text- und Bild-zu-Video-Auflösung von 512 x 512. Training mit 144 Bildern und 24 fps |
EasyAnimateV3-XL-2-InP-768x768.tar | EasyAnimateV3 | 18,2 GB | Herunterladen | ?Link | Offizielle EasyAnimateV3-Gewichte für eine Text- und Bild-zu-Video-Auflösung von 768 x 768. Training mit 144 Bildern und 24 fps |
EasyAnimateV3-XL-2-InP-960x960.tar | EasyAnimateV3 | 18,2 GB | Herunterladen | ?Link | Offizielle EasyAnimateV3-Gewichte für eine Text- und Bild-zu-Video-Auflösung von 960 x 960. Training mit 144 Bildern und 24 fps |
Name | Typ | Stauraum | URL | Beschreibung |
---|---|---|---|---|
easyanimate_v1_mm.safetensors | Bewegungsmodul | 4,1 GB | herunterladen | Training mit 80 Bildern und fps 12 |
Name | Typ | Stauraum | URL | Beschreibung |
---|---|---|---|---|
PixArt-XL-2-512x512.tar | Pixart | 11,4 GB | herunterladen | Offizielle Gewichte von Pixart-Alpha |
easyanimate_portrait.safetensors | Kontrollpunkt von Pixart | 2,3 GB | herunterladen | Training mit internen Porträtdatensätzen |
easyanimate_portrait_lora.safetensors | Lora von Pixart | 654,0 MB | herunterladen | Training mit internen Porträtdatensätzen |
Dieses Projekt ist unter der Apache-Lizenz (Version 2.0) lizenziert.