EasyAnimate下載 - EasyAnimate原始碼下載

EasyAnimate

其他源碼

EasyAnimateV1

下載

？ EasyAnimate |用於產生高解析度和長視訊的端到端解決方案

？ EasyAnimate 是一種用於產生高解析度長影片的端到端解決方案。我們可以訓練基於 Transformer 的擴散產生器、訓練 VAE 來處理長視訊以及預處理元資料。

？我們使用 DIT 和 Transformer 作為視訊和圖像生成的擴散器。

？歡迎！

英語 | 簡體中文 | 日本語

介紹

EasyAnimate 是一個基於 Transformer 架構的管道，旨在生成 AI 圖像和視頻，以及訓練 Diffusion Transformer 的基線模型和 Lora 模型。我們支援從預先訓練的 EasyAnimate 模型進行直接預測，允許生成各種分辨率的視頻，長度約為 6 秒，幀率為 8fps（EasyAnimateV5，1 至 49 幀）。此外，使用者可以訓練自己的基線和 Lora 模型以進行特定的風格轉換。

我們將支援不同平台的快速上拉，參考快速入門。

新功能：

更新至v5 ，支援視訊生成高達1024x1024、49幀、6s、8fps，模型規模擴展至12B，融入MMDIT結構，並支援多種輸入的控制模型；支援中英文雙語預測。 [2024.11.08]
更新至 v4 ，允許產生高達 1024x1024、144 幀、6s、24fps 的影片；支援文字、圖像和影片的影片生成，單一模型可處理 512 至 1280 的解析度；啟用中英文雙語預測。 [2024.08.15]
更新到 v3 ，支援從文字和圖像生成高達 960x960、144 幀、6s、24fps 的影片。 [2024.07.01]
ModelScope-Sora「資料總監」創意競賽－第三屆Data-Juicer大模型資料挑戰賽現已正式啟動！利用 EasyAnimate 作為基礎模型，探討資料處理對模型訓練的影響。詳情請瀏覽大賽網站。 [2024.06.17]
更新至 v2 ，支援高達 768x768、144 幀、6s、24fps 的視訊生成。 [2024.05.26]
程式碼已建立！現在支援 Windows 和 Linux。 [2024.04.12]

功能：

資料預處理
火車 VAE
火車迪特
影片生成

我們的UI介面如下：

快速入門

1.雲端使用：AliyunDSW/Docker

一個。來自阿里雲DSW

DSW有免費的GPU時間，用戶可以申請一次，申請後有效期為3個月。

阿里雲在Freetier中提供免費的GPU時間，取得後在阿里雲PAI-DSW中使用即可在5分鐘內啟動EasyAnimate！

b.來自 ComfyUI

我們的ComfyUI如下，詳細請參考ComfyUI README。

c.來自碼頭工人

如果您使用的是docker，請確保您的機器中已經正確安裝了顯示卡驅動程式和CUDA環境。

然後按照這樣的方式執行以下命令：

 # pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate

# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate

# clone code
git clone https://github.com/aigc-apps/EasyAnimate.git

# enter EasyAnimate's dir
cd EasyAnimate

# download weights
mkdir models/Diffusion_Transformer
mkdir models/Motion_Module
mkdir models/Personalized_Model

# Please use the hugginface link or modelscope link to download the EasyAnimateV5 model.
# I2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh-InP
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh-InP
# T2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh

2.本地安裝：環境檢查/下載/安裝

一個。環境檢查

我們已經在以下環境中驗證了 EasyAnimate 的執行：

Windows 的詳細資訊：

作業系統：Windows 10
蟒蛇：蟒蛇3.10和蟒蛇3.11
火炬：火炬2.2.0
CUDA：11.8 和 12.1
庫德恩：8+
顯示卡： Nvidia-3060 12G

Linux的詳細介紹：

作業系統：Ubuntu 20.04、CentOS
蟒蛇：蟒蛇3.10和蟒蛇3.11
火炬：火炬2.2.0
CUDA：11.8 和 12.1
庫德恩：8+
顯示卡：Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G

我們需要大約 60GB 可用磁碟空間（用於減輕重量），請檢查！

b.重量

我們最好沿著指定的路徑放置權重：

EasyAnimateV5：

 ? models/
├──  Diffusion_Transformer/
│   ├──  EasyAnimateV5-12b-zh-InP/
│   └──  EasyAnimateV5-12b-zh/
├──  Personalized_Model/
│   └── your trained trainformer model / your trained lora model (for UI load)

影片作品

顯示的結果均基於圖像。

EasyAnimateV5-12b-zh-InP

I2V

00000008.mp4

00000004.mp4

00000003.mp4

00000002.mp4

00000012.mp4

00000011.mp4

00000006.mp4

00000005.mp4

00000016.mp4

00000056.mp4

00000060.mp4

00000065.mp4

T2V

1.mp4

2.mp4

3.mp4

4.mp4

5.mp4

6.mp4

7.mp4

8.mp4

EasyAnimateV5-12b-zh-Control

示範_pose.mp4	示範_scribble.mp4	演示深度.mp4
示範_pose_out.mp4	示範_scribble_out.mp4	演示_深度_輸出.mp4

如何使用

1. 推論

一個。使用Python程式碼

步驟1：下載相應的權重並將其放入models資料夾中。
步驟2：修改predict_t2v.py檔案中的prompt、neg_prompt、guidance_scale和seed。
步驟3：執行predict_t2v.py文件，等待產生結果，並將結果保存在samples/easyanimate-videos資料夾中。
步驟4：如果你想將你訓練過的其他backbone與Lora結合起來，請根據情況修改predict_t2v.py中的predict_t2v.py和Lora_path。

b.使用網路使用者介面

步驟1：下載相應的權重並將其放入models資料夾中。
步驟2：執行app.py檔案進入圖表頁面。
第三步：依照頁面選擇產生的模型，填寫prompt、neg_prompt、guidance_scale、seed，點選generate，等待產生結果，並將結果儲存到samples資料夾中。

c.來自 ComfyUI

詳細資訊請參閱 ComfyUI README。

d. GPU 記憶體節省方案

由於EasyAnimateV5的參數較大，我們需要考慮GPU記憶體節省方案來節省記憶體。我們為每個預測檔案提供GPU_memory_mode選項，可以從model_cpu_offload 、 model_cpu_offload_and_qfloat8和sequential_cpu_offload中選擇。

model_cpu_offload表示整個模型使用後會卸載到CPU上，節省一些GPU記憶體。
model_cpu_offload_and_qfloat8表示使用後整個模型將被卸載到CPU，並且Transformer模型被量化為float8，從而節省更多的GPU記憶體。
sequential_cpu_offload表示模型的每一層在使用後都會卸載到 CPU，速度較慢，但可以節省大量 GPU 記憶體。

2. 模型訓練

完整的 EasyAnimate 訓練流程應包括資料預處理、視訊 VAE 訓練和視訊 DiT 訓練。其中，視訊VAE訓練是可選的，因為我們已經提供了預先訓練的視訊VAE。

一個。資料預處理

我們提供了一個透過圖像資料訓練Lora模型的簡單演示，詳細資訊可以在wiki中找到。

長視訊分割、清洗、描述的完整資料預處理環節可以參考視訊字幕部分的README。

如果你想訓練一個文字到圖像和影片生成模型。您需要以這種格式排列資料集。

 ? project/
├──  datasets/
│   ├──  internal_datasets/
│       ├──  train/
│       │   ├── ? 00000001.mp4
│       │   ├── ? 00000002.jpg
│       │   └── ? .....
│       └── ? json_of_internal_datasets.json

json_of_internal_datasets.json 是標準 JSON 檔案。 json中的file_path可以設定為相對路徑，如下所示：

[
    {
      "file_path" : " train/00000001.mp4 " ,
      "text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
      "type" : " video "
    },
    {
      "file_path" : " train/00000002.jpg " ,
      "text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
      "type" : " image "
    },
    .....
]

您也可以將路徑設定為絕對路徑，如下所示：

[
    {
      "file_path" : " /mnt/data/videos/00000001.mp4 " ,
      "text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
      "type" : " video "
    },
    {
      "file_path" : " /mnt/data/train/00000001.jpg " ,
      "text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
      "type" : " image "
    },
    .....
]

b.視訊 VAE 培訓（可選）

視訊 VAE 訓練是一個可選選項，因為我們已經提供了預先訓練的視訊 VAE。如果你想訓練影片vae，可以參考影片vae部分的README。

c.影片 DiT 培訓

如果資料預處理時資料格式為相對路徑，請如下設定scripts/train.sh 。

 export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"

如果資料預處理時資料格式為絕對路徑，請如下設定scripts/train.sh 。

 export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/json_of_internal_datasets.json"

然後，我們執行scripts/train.sh。

sh scripts/train.sh

有關設定部分參數的詳細信息，請參閱Readme Train 和 Readme Lora。

（已過時）EasyAnimateV1：

如果你想訓練 EasyAnimateV1.請切換到git分支v1.

模型動物園

EasyAnimateV5：

姓名	類型	儲存空間	抱臉	型號範圍	描述
EasyAnimateV5-12b-zh-InP	EasyAnimateV5	34GB	？	？	官方圖像到影片的權重。支援多種解析度（512、768、1024）的影片預測，以每秒8幀的49幀進行訓練，支援中英文雙語預測。
EasyAnimateV5-12b-zh-Control	EasyAnimateV5	34GB	？	？	官方影片控制權重，支援Canny、Depth、Pose、MLSD等多種控制條件。支援中英文雙語預測。
EasyAnimateV5-12b-zh	EasyAnimateV5	34GB	？	？	官方文字到影片的權重。支援多種解析度（512、768、1024）的影片預測，以每秒8幀的49幀進行訓練，支援中英文雙語預測。

（已過時）EasyAnimateV4：

姓名	類型	儲存空間	網址	抱臉	描述
EasyAnimateV4-XL-2-InP.tar.gz	EasyAnimateV4	提取前：8.9 GB / 提取後：14.0 GB	下載	？	我們的官方圖形生成視頻模型能夠預測多種分辨率（512、768、1024、1280）的視頻，並以每秒 24 幀的速率對 144 幀進行了訓練。

（已過時）EasyAnimateV3：

姓名	類型	儲存空間	網址	抱臉	描述
EasyAnimateV3-XL-2-InP-512x512.tar	EasyAnimateV3	18.2GB	下載	？	EasyAnimateV3 官方權重為 512x512 文字和圖像到影片解析度。使用 144 幀和 fps 24 進行訓練
EasyAnimateV3-XL-2-InP-768x768.tar	EasyAnimateV3	18.2GB	下載	？	EasyAnimateV3 官方權重為 768x768 文字和圖像到影片解析度。使用 144 幀和 fps 24 進行訓練
EasyAnimateV3-XL-2-InP-960x960.tar	EasyAnimateV3	18.2GB	下載	？	EasyAnimateV3 官方權重為 960x960 文字和圖像到影片解析度。使用 144 幀和 fps 24 進行訓練

（已過時）EasyAnimateV2：

|名稱 |類型 |儲存空間|網址 |擁抱臉|描述 | |--|--|--|--|--|--| | EasyAnimateV2-XL-2-512x512.tar | EasyAnimateV2 | 16.2GB | 16.2GB [下載](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Diffusion_Transformer/EasyAnimateV2-XL-2-512x512.tar) | [?連結](https://huggingface.co/alibaba-pai/EasyAnimateV2-XL-2-512x512) | EasyAnimateV2 官方權重為 512x512 解析度。使用 144 幀和 fps 24 進行訓練 | | EasyAnimateV2-XL-2-768x768.tar | EasyAnimateV2 | 16.2GB | 16.2GB [下載](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Diffusion_Transformer/EasyAnimateV2-XL-2-768x768.tar) | [?連結](https://huggingface.co/alibaba-pai/EasyAnimateV2-XL-2-768x768) | EasyAnimateV2 官方權重為 768x768 解析度。使用 144 幀和 fps 24 進行訓練 | | easyanimatev2_minimalism_lora.safetensors | easyanimatev2_minimalism_lora.safetensors | Pixart 的洛拉 | 485.1MB | [下載](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Personalized_Model/easyanimatev2_minimalism_lora.safetensors) | - |帶有特殊類型圖像的lora訓練。圖片可從[Url](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/asset/v2/Minimalism.zip)下載。 |

（已過時）EasyAnimateV1：

1.運動重量

姓名	類型	儲存空間	網址	描述
easyanimate_v1_mm.safetensors	運動模組	4.1GB	下載	使用 80 幀和 fps 12 進行訓練

2、其他重量

姓名	類型	儲存空間	網址	描述
PixArt-XL-2-512x512.tar	圖片	11.4GB	下載	Pixart-Alpha 官方權重
easyanimate_portrait.safetensors	圖片的檢查站	2.3GB	下載	使用內部肖像資料集進行訓練
easyanimate_portrait_lora.safetensors	皮克斯藝術的洛拉	654.0MB	下載	使用內部肖像資料集進行訓練