EasyAnimate -Download – Download EasyAnimate -Quellcodes

EasyAnimate

Anderer Quellcode

EasyAnimateV1

Herunterladen

? EasyAnimate | Eine End-to-End-Lösung für die Erzeugung hochauflösender und langer Videos

? EasyAnimate ist eine End-to-End-Lösung zur Erstellung hochauflösender und langer Videos. Wir können transformatorbasierte Diffusionsgeneratoren trainieren, VAEs für die Verarbeitung langer Videos trainieren und Metadaten vorverarbeiten.

? Wir verwenden DIT und Transformator als Diffusor für die Video- und Bilderzeugung.

? Willkommen!

Englisch | 简体中文 | 日本語

Inhaltsverzeichnis

Inhaltsverzeichnis
Einführung
Schnellstart
Videoergebnis
Wie zu verwenden
Modellzoo
TODO-Liste
Kontaktieren Sie uns
Referenz
Lizenz

Einführung

EasyAnimate ist eine Pipeline, die auf der Transformer-Architektur basiert und zum Generieren von KI-Bildern und -Videos sowie zum Trainieren von Basismodellen und Lora-Modellen für Diffusion Transformer entwickelt wurde. Wir unterstützen die direkte Vorhersage von vorab trainierten EasyAnimate-Modellen und ermöglichen die Generierung von Videos mit verschiedenen Auflösungen, etwa 6 Sekunden Länge und 8 Bildern pro Sekunde (EasyAnimateV5, 1 bis 49 Bilder). Darüber hinaus können Benutzer ihre eigenen Basis- und Lora-Modelle für bestimmte Stiltransformationen trainieren.

Wir unterstützen schnelle Klimmzüge von verschiedenen Plattformen aus, siehe Schnellstart.

Neue Funktionen:

Auf Version 5 aktualisiert , unterstützt die Videogenerierung bis zu 1024 x 1024, 49 Bilder, 6 Sekunden, 8 Bilder pro Sekunde, mit erweitertem Modellmaßstab auf 12B, Einbindung der MMDIT-Struktur und ermöglicht Steuerungsmodelle mit verschiedenen Eingaben; unterstützt zweisprachige Vorhersagen in Chinesisch und Englisch. [08.11.2024]
Auf Version 4 aktualisiert , was die Videogenerierung mit bis zu 1024 x 1024, 144 Bildern, 6 Sekunden und 24 Bildern pro Sekunde ermöglicht; unterstützt die Videogenerierung aus Text, Bild und Video, wobei ein einziges Modell Auflösungen von 512 bis 1280 verarbeitet; zweisprachige Vorhersagen in Chinesisch und Englisch aktiviert. [2024.08.15]
Auf Version 3 aktualisiert , unterstützt die Videogenerierung bis zu 960 x 960, 144 Bilder, 6 Sekunden, 24 Bilder pro Sekunde aus Text und Bild. [2024.07.01]
ModelScope-Sora „Data Director“ Creative Race – Die dritte Data-Juicer Big Model Data Challenge ist jetzt offiziell gestartet! Mithilfe von EasyAnimate als Basismodell werden die Auswirkungen der Datenverarbeitung auf das Modelltraining untersucht. Weitere Informationen finden Sie auf der Website des Wettbewerbs. [17.06.2024]
Auf Version 2 aktualisiert , unterstützt die Videogenerierung bis zu 768 x 768, 144 Bilder, 6 Sekunden, 24 Bilder pro Sekunde. [26.05.2024]
Code erstellt! Unterstützt jetzt Windows und Linux. [12.04.2024]

Funktion:

Datenvorverarbeitung
Zug VAE
Trainieren Sie DiT
Videogenerierung

Unsere Benutzeroberfläche sieht wie folgt aus:

Schnellstart

1. Cloud-Nutzung: AliyunDSW/Docker

A. Von AliyunDSW

DSW verfügt über kostenlose GPU-Zeit, die von einem Benutzer einmalig angewendet werden kann und nach der Beantragung 3 Monate lang gültig ist.

Aliyun bietet kostenlose GPU-Zeit in Freetier. Holen Sie es sich und nutzen Sie es in Aliyun PAI-DSW, um EasyAnimate innerhalb von 5 Minuten zu starten!

B. Von ComfyUI

Unsere ComfyUI sieht wie folgt aus. Weitere Informationen finden Sie in der ComfyUI README.

C. Von Docker

Wenn Sie Docker verwenden, stellen Sie bitte sicher, dass der Grafikkartentreiber und die CUDA-Umgebung korrekt auf Ihrem Computer installiert sind.

Führen Sie dann auf diese Weise die folgenden Befehle aus:

 # pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate

# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate

# clone code
git clone https://github.com/aigc-apps/EasyAnimate.git

# enter EasyAnimate's dir
cd EasyAnimate

# download weights
mkdir models/Diffusion_Transformer
mkdir models/Motion_Module
mkdir models/Personalized_Model

# Please use the hugginface link or modelscope link to download the EasyAnimateV5 model.
# I2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh-InP
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh-InP
# T2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh

2. Lokale Installation: Umgebungsprüfung/Herunterladen/Installation

A. Umweltprüfung

Wir haben die Ausführung von EasyAnimate in der folgenden Umgebung überprüft:

Das Detail von Windows:

Betriebssystem: Windows 10
Python: Python3.10 und Python3.11
Pytorch: Torch2.2.0
CUDA: 11.8 und 12.1
CUDNN: 8+
GPU: Nvidia-3060 12G

Das Detail von Linux:

Betriebssystem: Ubuntu 20.04, CentOS
Python: Python3.10 und Python3.11
Pytorch: Torch2.2.0
CUDA: 11.8 und 12.1
CUDNN: 8+
GPU: Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G

Wir benötigen etwa 60 GB auf der Festplatte (um Gewicht zu sparen), bitte überprüfen!

B. Gewichte

Wir platzieren die Gewichte besser entlang des angegebenen Pfads:

EasyAnimateV5:

 ? models/
├──  Diffusion_Transformer/
│   ├──  EasyAnimateV5-12b-zh-InP/
│   └──  EasyAnimateV5-12b-zh/
├──  Personalized_Model/
│   └── your trained trainformer model / your trained lora model (for UI load)

视频作品

Die angezeigten Ergebnisse basieren alle auf Bildern.

EasyAnimateV5-12b-zh-InP

I2V

00000008.mp4

00000004.mp4

00000003.mp4

00000002.mp4

00000012.mp4

00000011.mp4

00000006.mp4

00000005.mp4

00000016.mp4

00000056.mp4

00000060.mp4

00000065.mp4

T2V

1.mp4

2.mp4

3.mp4

4.mp4

5.mp4

6.mp4

7.mp4

8.mp4

EasyAnimateV5-12b-zh-Control

demo_pose.mp4	demo_scribble.mp4	demo_tiefe.mp4
demo_pose_out.mp4	demo_scribble_out.mp4	demo_ Depth_out.mp4

Wie zu verwenden

1. Schlussfolgerung

A. Verwenden von Python-Code

Schritt 1: Laden Sie die entsprechenden Gewichte herunter und legen Sie sie im Modellordner ab.
Schritt 2: Ändern Sie prompt, neg_prompt, Guidance_scale und Seed in der Datei Predict_t2v.py.
Schritt 3: Führen Sie die Datei „predict_t2v.py“ aus, warten Sie auf die generierten Ergebnisse und speichern Sie die Ergebnisse im Ordner „samples/easyanimate-videos“.
Schritt 4: Wenn Sie andere Backbones kombinieren möchten, die Sie mit Lora trainiert haben, ändern Sie Predict_t2v.py und Lora_path in Predict_t2v.py je nach Situation.

B. Webui verwenden

Schritt 1: Laden Sie die entsprechenden Gewichte herunter und legen Sie sie im Modellordner ab.
Schritt 2: Führen Sie die Datei app.py aus, um die Diagrammseite aufzurufen.
Schritt 3: Wählen Sie das generierte Modell basierend auf der Seite aus, geben Sie Eingabeaufforderung, neg_prompt, Guidance_scale und Seed ein, klicken Sie auf „Generieren“, warten Sie auf das generierte Ergebnis und speichern Sie das Ergebnis im Beispielordner.

C. Von ComfyUI

Weitere Informationen finden Sie in der README-Datei von ComfyUI.

D. Schemata zum Sparen von GPU-Speicher

Aufgrund der großen Parameter von EasyAnimateV5 müssen wir GPU-Speichersparschemata in Betracht ziehen, um Speicher zu sparen. Wir stellen für jede Vorhersagedatei eine GPU_memory_mode Option bereit, die aus model_cpu_offload , model_cpu_offload_and_qfloat8 und sequential_cpu_offload ausgewählt werden kann.

model_cpu_offload gibt an, dass das gesamte Modell nach der Verwendung auf die CPU ausgelagert wird, wodurch GPU-Speicher gespart wird.
model_cpu_offload_and_qfloat8 gibt an, dass das gesamte Modell nach der Verwendung auf die CPU ausgelagert wird und das Transformatormodell auf float8 quantisiert wird, wodurch noch mehr GPU-Speicher gespart wird.
sequential_cpu_offload bedeutet, dass jede Schicht des Modells nach der Verwendung auf die CPU ausgelagert wird, was langsamer ist, aber eine erhebliche Menge an GPU-Speicher spart.

2. Modellschulung

Eine vollständige EasyAnimate-Schulungspipeline sollte Datenvorverarbeitung, Video-VAE-Schulung und Video-DiT-Schulung umfassen. Unter diesen ist die Video-VAE-Schulung optional, da wir bereits eine vorab trainierte Video-VAE bereitgestellt haben.

A. Datenvorverarbeitung

Wir haben eine einfache Demo zum Training des Lora-Modells mithilfe von Bilddaten bereitgestellt, die im Wiki für weitere Details zu finden ist.

Einen vollständigen Link zur Datenvorverarbeitung für die Segmentierung, Bereinigung und Beschreibung langer Videos finden Sie in der README-Datei im Abschnitt mit den Videountertiteln.

Wenn Sie ein Text-zu-Bild- und Video-Generierungsmodell trainieren möchten. Sie müssen den Datensatz in diesem Format anordnen.

 ? project/
├──  datasets/
│   ├──  internal_datasets/
│       ├──  train/
│       │   ├── ? 00000001.mp4
│       │   ├── ? 00000002.jpg
│       │   └── ? .....
│       └── ? json_of_internal_datasets.json

Die json_of_internal_datasets.json ist eine Standard-JSON-Datei. Der Dateipfad im JSON kann als relativer Pfad festgelegt werden, wie unten gezeigt:

[
    {
      "file_path" : " train/00000001.mp4 " ,
      "text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
      "type" : " video "
    },
    {
      "file_path" : " train/00000002.jpg " ,
      "text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
      "type" : " image "
    },
    .....
]

Sie können den Pfad auch wie folgt als absoluten Pfad festlegen:

[
    {
      "file_path" : " /mnt/data/videos/00000001.mp4 " ,
      "text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
      "type" : " video "
    },
    {
      "file_path" : " /mnt/data/train/00000001.jpg " ,
      "text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
      "type" : " image "
    },
    .....
]

B. Video-VAE-Schulung (optional)

Die Video-VAE-Schulung ist eine optionale Option, da wir bereits vorab trainierte Video-VAEs bereitgestellt haben. Wenn Sie Video-Vae trainieren möchten, können Sie die README-Datei im Abschnitt Video-Vae lesen.

C. Video-DiT-Schulung

Wenn das Datenformat während der Datenvorverarbeitung ein relativer Pfad ist, legen Sie scripts/train.sh wie folgt fest.

 export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"

Wenn das Datenformat während der Datenvorverarbeitung ein absoluter Pfad ist, legen Sie scripts/train.sh wie folgt fest.

 export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/json_of_internal_datasets.json"

Dann führen wir scripts/train.sh aus.

sh scripts/train.sh

Einzelheiten zum Festlegen einiger Parameter finden Sie in Readme Train und Readme Lora.

(Veraltet) EasyAnimateV1:

Wenn Sie EasyAnimateV1 trainieren möchten. Bitte wechseln Sie zum Git-Zweig v1.

Modellzoo

EasyAnimateV5:

Name	Typ	Stauraum	Umarmendes Gesicht	Modellumfang	Beschreibung
EasyAnimateV5-12b-zh-InP	EasyAnimateV5	34 GB	?Link	?Link	Offizielle Bild-zu-Video-Gewichte. Unterstützt Videovorhersage mit mehreren Auflösungen (512, 768, 1024), trainiert mit 49 Bildern bei 8 Bildern pro Sekunde und unterstützt zweisprachige Vorhersage in Chinesisch und Englisch.
EasyAnimateV5-12b-zh-Control	EasyAnimateV5	34 GB	?Link	?Link	Offizielle Videokontrollgewichte, die verschiedene Kontrollbedingungen wie Canny, Depth, Pose, MLSD usw. unterstützen. Unterstützt Videovorhersage bei mehreren Auflösungen (512, 768, 1024) und wird mit 49 Bildern bei 8 Bildern pro Sekunde trainiert. Die zweisprachige Vorhersage in Chinesisch und Englisch wird unterstützt.
EasyAnimateV5-12b-zh	EasyAnimateV5	34 GB	?Link	?Link	Offizielle Text-zu-Video-Gewichte. Unterstützt Videovorhersage mit mehreren Auflösungen (512, 768, 1024), trainiert mit 49 Bildern bei 8 Bildern pro Sekunde und unterstützt zweisprachige Vorhersage in Chinesisch und Englisch.

(Veraltet) EasyAnimateV4:

Name	Typ	Stauraum	URL	Umarmendes Gesicht	Beschreibung
EasyAnimateV4-XL-2-InP.tar.gz	EasyAnimateV4	Vor der Extraktion: 8,9 GB / Nach der Extraktion: 14,0 GB	Herunterladen	?Link	Unser offizielles diagrammgeneriertes Videomodell ist in der Lage, Videos mit mehreren Auflösungen (512, 768, 1024, 1280) vorherzusagen und wurde auf 144 Bildern mit einer Rate von 24 Bildern pro Sekunde trainiert.

(Veraltet) EasyAnimateV3:

Name	Typ	Stauraum	URL	Umarmendes Gesicht	Beschreibung
EasyAnimateV3-XL-2-InP-512x512.tar	EasyAnimateV3	18,2 GB	Herunterladen	?Link	Offizielle EasyAnimateV3-Gewichte für eine Text- und Bild-zu-Video-Auflösung von 512 x 512. Training mit 144 Bildern und 24 fps
EasyAnimateV3-XL-2-InP-768x768.tar	EasyAnimateV3	18,2 GB	Herunterladen	?Link	Offizielle EasyAnimateV3-Gewichte für eine Text- und Bild-zu-Video-Auflösung von 768 x 768. Training mit 144 Bildern und 24 fps
EasyAnimateV3-XL-2-InP-960x960.tar	EasyAnimateV3	18,2 GB	Herunterladen	?Link	Offizielle EasyAnimateV3-Gewichte für eine Text- und Bild-zu-Video-Auflösung von 960 x 960. Training mit 144 Bildern und 24 fps

(Veraltet) EasyAnimateV2:

(Veraltet) EasyAnimateV1:

1、Bewegungsgewichte

Name	Typ	Stauraum	URL	Beschreibung
easyanimate_v1_mm.safetensors	Bewegungsmodul	4,1 GB	herunterladen	Training mit 80 Bildern und fps 12

2、Andere Gewichte

Name	Typ	Stauraum	URL	Beschreibung
PixArt-XL-2-512x512.tar	Pixart	11,4 GB	herunterladen	Offizielle Gewichte von Pixart-Alpha
easyanimate_portrait.safetensors	Kontrollpunkt von Pixart	2,3 GB	herunterladen	Training mit internen Porträtdatensätzen
easyanimate_portrait_lora.safetensors	Lora von Pixart	654,0 MB	herunterladen	Training mit internen Porträtdatensätzen

TODO-Liste

Unterstützungsmodell mit größeren Parametern.

Kontaktieren Sie uns

Verwenden Sie Dingding, um die Gruppe 77450006752 zu durchsuchen, oder Scannen, um beizutreten
Sie müssen das Bild scannen, um der WeChat-Gruppe beizutreten. Wenn die Gruppe abgelaufen ist, fügen Sie diesen Schüler zuerst als Freund hinzu, um Sie einzuladen.

Referenz

CogVideo: https://github.com/THUDM/CogVideo/
Flussmittel: https://github.com/black-forest-labs/flux
magvit: https://github.com/google-research/magvit
PixArt: https://github.com/PixArt-alpha/PixArt-alpha
Open-Sora-Plan: https://github.com/PKU-YuanGroup/Open-Sora-Plan
Open-Sora: https://github.com/hpcaitech/Open-Sora
Animatediff: https://github.com/guoyww/AnimateDiff
ComfyUI-EasyAnimateWrapper: https://github.com/kijai/ComfyUI-EasyAnimateWrapper
HunYuan DiT: https://github.com/tencent/HunyuanDiT

Lizenz

Dieses Projekt ist unter der Apache-Lizenz (Version 2.0) lizenziert.

Expandieren

Zusätzliche Informationen

Version EasyAnimateV1
Typ Anderer Quellcode
Aktualisierungszeit 2024-11-18
Größe 50MB
Kommt von Github

Ähnliche Anwendungen

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15