? EasyAnimate는 고해상도의 긴 비디오를 생성하기 위한 엔드투엔드 솔루션입니다. 변환기 기반 확산 생성기를 훈련하고, 긴 비디오를 처리하기 위해 VAE를 훈련하고, 메타데이터를 전처리할 수 있습니다.
? 우리는 비디오 및 이미지 생성을 위한 디퓨저로 DIT와 변환기를 사용합니다.
? 환영!
영어 | 简体中文 | 일본어
EasyAnimate는 AI 이미지 및 비디오를 생성하고 Diffusion Transformer용 기본 모델 및 Lora 모델을 훈련하기 위해 설계된 변환기 아키텍처를 기반으로 하는 파이프라인입니다. 사전 훈련된 EasyAnimate 모델의 직접 예측을 지원하여 8fps(EasyAnimateV5, 1~49프레임)에서 길이가 약 6초인 다양한 해상도의 비디오를 생성할 수 있습니다. 또한 사용자는 특정 스타일 변환을 위해 자신의 기준선과 Lora 모델을 훈련할 수 있습니다.
다양한 플랫폼에서 빠른 풀업을 지원합니다. 빠른 시작을 참조하세요.
새로운 기능:
기능:
우리의 UI 인터페이스는 다음과 같습니다:
DSW에는 무료 GPU 시간이 있으며, 이는 사용자가 한 번만 신청할 수 있으며 신청 후 3개월 동안 유효합니다.
Aliyun은 Freetier에서 무료 GPU 시간을 제공하고 이를 받아 Aliyun PAI-DSW에서 사용하여 5분 이내에 EasyAnimate를 시작합니다!
당사의 ComfyUI는 다음과 같습니다. 자세한 내용은 ComfyUI README를 참조하시기 바랍니다.
Docker를 사용하는 경우 그래픽 카드 드라이버와 CUDA 환경이 컴퓨터에 올바르게 설치되었는지 확인하세요.
그런 다음 이 방법으로 다음 명령을 실행합니다.
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate
# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate
# clone code
git clone https://github.com/aigc-apps/EasyAnimate.git
# enter EasyAnimate's dir
cd EasyAnimate
# download weights
mkdir models/Diffusion_Transformer
mkdir models/Motion_Module
mkdir models/Personalized_Model
# Please use the hugginface link or modelscope link to download the EasyAnimateV5 model.
# I2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh-InP
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh-InP
# T2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh
다음 환경에서 EasyAnimate 실행을 확인했습니다.
Windows의 세부사항:
Linux의 세부사항:
(가중치 저장을 위해) 디스크에 약 60GB의 사용 가능한 공간이 필요합니다. 확인하세요!
지정된 경로를 따라 가중치를 배치하는 것이 좋습니다.
EasyAnimateV5:
? models/
├── Diffusion_Transformer/
│ ├── EasyAnimateV5-12b-zh-InP/
│ └── EasyAnimateV5-12b-zh/
├── Personalized_Model/
│ └── your trained trainformer model / your trained lora model (for UI load)
표시된 결과는 모두 이미지를 기반으로 합니다.
00000008.mp4 | 00000004.mp4 | 00000003.mp4 | 00000002.mp4 |
00000012.mp4 | 00000011.mp4 | 00000006.mp4 | 00000005.mp4 |
00000016.mp4 | 00000056.mp4 | 00000060.mp4 | 00000065.mp4 |
1.mp4 | 2.mp4 | 3.mp4 | 4.mp4 |
5.mp4 | 6.mp4 | 7.mp4 | 8.mp4 |
데모_포즈.mp4 | 데모_스크리블.mp4 | 데모_깊이.mp4 |
데모_포즈_아웃.mp4 | 데모_scribble_out.mp4 | 데모_깊이_아웃.mp4 |
자세한 내용은 ComfyUI README를 참조하세요.
EasyAnimateV5의 큰 매개변수로 인해 메모리를 절약하려면 GPU 메모리 절약 방식을 고려해야 합니다. 각 예측 파일에 대해 model_cpu_offload
, model_cpu_offload_and_qfloat8
및 sequential_cpu_offload
에서 선택할 수 있는 GPU_memory_mode
옵션을 제공합니다.
model_cpu_offload
사용 후 전체 모델이 CPU로 오프로드되어 일부 GPU 메모리가 절약됨을 나타냅니다.model_cpu_offload_and_qfloat8
사용 후 전체 모델이 CPU로 오프로드되고 변환기 모델이 float8로 양자화되어 더 많은 GPU 메모리를 절약함을 나타냅니다.sequential_cpu_offload
모델의 각 레이어가 사용 후 CPU로 오프로드됨을 의미합니다. 이는 속도는 느리지만 상당한 양의 GPU 메모리를 절약합니다.완전한 EasyAnimate 교육 파이프라인에는 데이터 전처리, 비디오 VAE 교육 및 비디오 DiT 교육이 포함되어야 합니다. 이 중에서 비디오 VAE 교육은 이미 사전 교육된 비디오 VAE를 제공했기 때문에 선택 사항입니다.
우리는 이미지 데이터를 통해 Lora 모델을 훈련하는 간단한 데모를 제공했으며 자세한 내용은 위키에서 찾을 수 있습니다.
긴 비디오 분할, 정리 및 설명을 위한 완전한 데이터 전처리 링크는 비디오 캡션 섹션의 README를 참조할 수 있습니다.
텍스트를 이미지 및 비디오 생성 모델로 훈련하려는 경우. 이 형식으로 데이터 세트를 정렬해야 합니다.
? project/
├── datasets/
│ ├── internal_datasets/
│ ├── train/
│ │ ├── ? 00000001.mp4
│ │ ├── ? 00000002.jpg
│ │ └── ? .....
│ └── ? json_of_internal_datasets.json
json_of_internal_datasets.json은 표준 JSON 파일입니다. 아래와 같이 json의 file_path를 상대 경로로 설정할 수 있습니다.
[
{
"file_path" : " train/00000001.mp4 " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " video "
},
{
"file_path" : " train/00000002.jpg " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " image "
},
.....
]
다음과 같이 경로를 절대 경로로 설정할 수도 있습니다.
[
{
"file_path" : " /mnt/data/videos/00000001.mp4 " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " video "
},
{
"file_path" : " /mnt/data/train/00000001.jpg " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " image "
},
.....
]
사전 훈련된 비디오 VAE를 이미 제공했으므로 비디오 VAE 교육은 선택 사항입니다. 비디오 vae를 훈련하려면 비디오 vae 섹션의 README를 참조하세요.
데이터 전처리 과정에서 데이터 형식이 상대경로인 경우 scripts/train.sh
다음과 같이 설정해주세요.
export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"
데이터 전처리 시 데이터 형식이 절대 경로인 경우 scripts/train.sh
다음과 같이 설정해주세요.
export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/json_of_internal_datasets.json"
그런 다음 scripts/train.sh를 실행합니다.
sh scripts/train.sh
일부 매개변수 설정에 대한 자세한 내용은 Readme Train 및 Readme Lora를 참조하십시오.
EasyAnimateV5:
이름 | 유형 | 저장 공간 | 포옹하는 얼굴 | 모델 범위 | 설명 |
---|---|---|---|---|---|
EasyAnimateV5-12b-zh-InP | EasyAnimateV5 | 34GB | ?링크 | ?링크 | 공식 이미지-비디오 가중치. 다양한 해상도(512, 768, 1024)에서 비디오 예측을 지원하고 초당 8프레임에서 49프레임으로 훈련되었으며 중국어와 영어로 이중 언어 예측을 지원합니다. |
EasyAnimateV5-12b-zh-제어 | EasyAnimateV5 | 34GB | ?링크 | ?링크 | Canny, Depth, Pose, MLSD 등과 같은 다양한 제어 조건을 지원하는 공식 비디오 제어 가중치. 다양한 해상도(512, 768, 1024)에서 비디오 예측을 지원하며 초당 8프레임에서 49프레임으로 학습됩니다. 중국어와 영어의 이중 언어 예측이 지원됩니다. |
EasyAnimateV5-12b-zh | EasyAnimateV5 | 34GB | ?링크 | ?링크 | 공식 텍스트-비디오 가중치. 다양한 해상도(512, 768, 1024)에서 비디오 예측을 지원하고 초당 8프레임에서 49프레임으로 훈련되었으며 중국어와 영어로 이중 언어 예측을 지원합니다. |
이름 | 유형 | 저장 공간 | URL | 포옹하는 얼굴 | 설명 |
---|---|---|---|---|---|
EasyAnimateV4-XL-2-InP.tar.gz | EasyAnimateV4 | 추출 전: 8.9 GB / 추출 후: 14.0 GB | 다운로드 | ?링크 | 우리의 공식 그래프 생성 비디오 모델은 다양한 해상도(512, 768, 1024, 1280)의 비디오를 예측할 수 있으며 초당 24프레임의 속도로 144프레임에 대해 훈련되었습니다. |
이름 | 유형 | 저장 공간 | URL | 포옹하는 얼굴 | 설명 |
---|---|---|---|---|---|
EasyAnimateV3-XL-2-InP-512x512.tar | EasyAnimateV3 | 18.2GB | 다운로드 | ?링크 | 512x512 텍스트 및 이미지 대 비디오 해상도에 대한 EasyAnimateV3 공식 가중치입니다. 144 프레임 및 fps 24를 사용한 교육 |
EasyAnimateV3-XL-2-InP-768x768.tar | EasyAnimateV3 | 18.2GB | 다운로드 | ?링크 | 768x768 텍스트 및 이미지 대 비디오 해상도에 대한 EasyAnimateV3 공식 가중치입니다. 144 프레임 및 fps 24를 사용한 교육 |
EasyAnimateV3-XL-2-InP-960x960.tar | EasyAnimateV3 | 18.2GB | 다운로드 | ?링크 | 960x960 텍스트 및 이미지 대 비디오 해상도에 대한 EasyAnimateV3 공식 가중치입니다. 144 프레임 및 fps 24를 사용한 교육 |
이름 | 유형 | 저장 공간 | URL | 설명 |
---|---|---|---|---|
easyanimate_v1_mm.safetensors | 모션 모듈 | 4.1GB | 다운로드 | 80프레임 및 fps 12를 사용한 교육 |
이름 | 유형 | 저장 공간 | URL | 설명 |
---|---|---|---|---|
PixArt-XL-2-512x512.tar | 픽사트 | 11.4GB | 다운로드 | Pixart-Alpha 공식 가중치 |
easyanimate_portrait.safetensors | 픽사트의 체크포인트 | 2.3GB | 다운로드 | 내부 초상화 데이터 세트를 사용한 교육 |
easyanimate_portrait_lora.safetensors | 픽사트의 로라 | 654.0MB | 다운로드 | 내부 초상화 데이터 세트를 사용한 교육 |
이 프로젝트는 Apache 라이선스(버전 2.0)에 따라 라이선스가 부여됩니다.