? EasyAnimate — это комплексное решение для создания длинных видеороликов с высоким разрешением. Мы можем обучать диффузионные генераторы на основе трансформаторов, обучать VAE обработке длинных видео и предварительно обрабатывать метаданные.
? Мы используем ДИТ и трансформатор в качестве диффузора для генерации видео и изображений.
? Добро пожаловать!
английский | 简体中文 | 日本語
EasyAnimate — это конвейер, основанный на архитектуре трансформатора, предназначенный для создания изображений и видео с использованием искусственного интеллекта, а также для обучения базовых моделей и моделей Лора для Diffusion Transformer. Мы поддерживаем прямое прогнозирование на основе предварительно обученных моделей EasyAnimate, что позволяет создавать видеоролики с различным разрешением, длиной примерно 6 секунд и частотой 8 кадров в секунду (EasyAnimateV5, от 1 до 49 кадров). Кроме того, пользователи могут обучать свои собственные базовые модели и модели Lora конкретным преобразованиям стиля.
Мы будем поддерживать быстрые подтягивания с разных платформ, см. Быстрый старт.
Новые возможности:
Функция:
Наш интерфейс пользовательского интерфейса выглядит следующим образом:
У DSW есть бесплатное время использования графического процессора, которое пользователь может применить один раз и действует в течение 3 месяцев после подачи заявки.
Aliyun предоставляет бесплатное время графического процессора во Freetier, получает его и использует в Aliyun PAI-DSW, чтобы запустить EasyAnimate за 5 минут!
Наш ComfyUI выглядит следующим образом. Подробности см. в ComfyUI README.
Если вы используете Docker, убедитесь, что драйвер видеокарты и среда CUDA правильно установлены на вашем компьютере.
Затем выполните следующие команды таким образом:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate
# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate
# clone code
git clone https://github.com/aigc-apps/EasyAnimate.git
# enter EasyAnimate's dir
cd EasyAnimate
# download weights
mkdir models/Diffusion_Transformer
mkdir models/Motion_Module
mkdir models/Personalized_Model
# Please use the hugginface link or modelscope link to download the EasyAnimateV5 model.
# I2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh-InP
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh-InP
# T2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh
Мы проверили выполнение EasyAnimate в следующей среде:
Подробности о Windows:
Подробности о Linux:
Нам нужно около 60 ГБ свободного места на диске (для экономии веса), проверьте!
Лучше расположим веса по указанному пути:
EasyAnimateV5:
? models/
├── Diffusion_Transformer/
│ ├── EasyAnimateV5-12b-zh-InP/
│ └── EasyAnimateV5-12b-zh/
├── Personalized_Model/
│ └── your trained trainformer model / your trained lora model (for UI load)
Все отображаемые результаты основаны на изображении.
00000008.mp4 | 00000004.mp4 | 00000003.mp4 | 00000002.mp4 |
00000012.mp4 | 00000011.mp4 | 00000006.mp4 | 00000005.mp4 |
00000016.mp4 | 00000056.mp4 | 00000060.mp4 | 00000065.mp4 |
1.mp4 | 2.mp4 | 3.mp4 | 4.mp4 |
5.mp4 | 6.mp4 | 7.mp4 | 8.mp4 |
demo_pose.mp4 | demo_scribble.mp4 | demo_глубина.mp4 |
demo_pose_out.mp4 | demo_scribble_out.mp4 | demo_глубина_out.mp4 |
Подробности см. в README ComfyUI.
Из-за больших параметров EasyAnimateV5 нам необходимо рассмотреть схемы экономии памяти графического процессора для экономии памяти. Мы предоставляем опцию GPU_memory_mode
для каждого файла прогнозирования, которую можно выбрать из model_cpu_offload
, model_cpu_offload_and_qfloat8
и sequential_cpu_offload
.
model_cpu_offload
указывает, что вся модель будет выгружена в ЦП после использования, что позволит сэкономить часть памяти графического процессора.model_cpu_offload_and_qfloat8
указывает, что вся модель будет выгружена в ЦП после использования, а модель преобразователя квантуется до float8, экономя еще больше памяти графического процессора.sequential_cpu_offload
означает, что каждый уровень модели будет выгружен в ЦП после использования, что медленнее, но экономит значительный объем памяти графического процессора.Полный конвейер обучения EasyAnimate должен включать предварительную обработку данных, обучение Video VAE и обучение Video DiT. Среди них обучение Video VAE является необязательным, поскольку мы уже предоставили предварительно обученное Video VAE.
Мы предоставили простую демонстрацию обучения модели Lora с помощью данных изображения, подробности которой можно найти в вики.
Полную ссылку на предварительную обработку данных для сегментации, очистки и описания длинных видео можно найти в README в разделе титров к видео.
Если вы хотите обучить текст модели генерации изображений и видео. Вам необходимо оформить набор данных в этом формате.
? project/
├── datasets/
│ ├── internal_datasets/
│ ├── train/
│ │ ├── ? 00000001.mp4
│ │ ├── ? 00000002.jpg
│ │ └── ? .....
│ └── ? json_of_internal_datasets.json
json_of_internal_datasets.json — это стандартный файл JSON. File_path в json можно установить как относительный путь, как показано ниже:
[
{
"file_path" : " train/00000001.mp4 " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " video "
},
{
"file_path" : " train/00000002.jpg " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " image "
},
.....
]
Вы также можете установить путь как абсолютный путь следующим образом:
[
{
"file_path" : " /mnt/data/videos/00000001.mp4 " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " video "
},
{
"file_path" : " /mnt/data/train/00000001.jpg " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " image "
},
.....
]
Обучение Video VAE является дополнительной опцией, поскольку мы уже предоставили предварительно обученных Video VAE. Если вы хотите обучить видео-видео, вы можете обратиться к README в разделе видео-вей.
Если во время предварительной обработки данных формат данных является относительным путем, установите scripts/train.sh
следующим образом.
export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"
Если во время предварительной обработки данных формат данных является абсолютным путем, установите scripts/train.sh
следующим образом.
export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/json_of_internal_datasets.json"
Затем мы запускаем скрипты/train.sh.
sh scripts/train.sh
Подробную информацию о настройке некоторых параметров см. в файлах Readme Train и Readme Lora.
EasyAnimateV5:
Имя | Тип | Место для хранения | Обнимающее лицо | Область применения модели | Описание |
---|---|---|---|---|---|
EasyAnimateV5-12б-ж-ИнП | EasyAnimateV5 | 34 ГБ | ?Связь | ?Связь | Официальные веса изображения в видео. Поддерживает прогнозирование видео с несколькими разрешениями (512, 768, 1024), обучение с использованием 49 кадров с частотой 8 кадров в секунду, а также двуязычное прогнозирование на китайском и английском языках. |
EasyAnimateV5-12b-zh-Control | EasyAnimateV5 | 34 ГБ | ?Связь | ?Связь | Официальные веса управления видео, поддерживающие различные условия управления, такие как Canny, Depth, Pose, MLSD и т. д. Поддерживает прогнозирование видео в нескольких разрешениях (512, 768, 1024) и обучается с 49 кадрами со скоростью 8 кадров в секунду. Поддерживается двуязычное предсказание на китайском и английском языках. |
EasyAnimateV5-12б-ж | EasyAnimateV5 | 34 ГБ | ?Связь | ?Связь | Официальные веса преобразования текста в видео. Поддерживает прогнозирование видео с несколькими разрешениями (512, 768, 1024), обучение с использованием 49 кадров с частотой 8 кадров в секунду, а также двуязычное прогнозирование на китайском и английском языках. |
Имя | Тип | Место для хранения | URL | Обнимающее лицо | Описание |
---|---|---|---|---|---|
EasyAnimateV4-XL-2-InP.tar.gz | EasyAnimateV4 | До извлечения: 8,9 ГБ / После извлечения: 14,0 ГБ | Скачать | ?Связь | Наша официальная видеомодель, созданная на основе графов, способна прогнозировать видео в нескольких разрешениях (512, 768, 1024, 1280) и была обучена на 144 кадрах со скоростью 24 кадра в секунду. |
Имя | Тип | Место для хранения | URL | Обнимающее лицо | Описание |
---|---|---|---|---|---|
EasyAnimateV3-XL-2-InP-512x512.tar | EasyAnimateV3 | 18,2 ГБ | Скачать | ?Связь | Официальные веса EasyAnimateV3 для разрешения текста и изображений 512x512 в видео. Тренировка со 144 кадрами и 24 кадрами в секунду. |
EasyAnimateV3-XL-2-InP-768x768.tar | EasyAnimateV3 | 18,2 ГБ | Скачать | ?Связь | Официальные веса EasyAnimateV3 для разрешения текста и изображений 768x768 в видео. Тренировка со 144 кадрами и 24 кадрами в секунду. |
EasyAnimateV3-XL-2-InP-960x960.tar | EasyAnimateV3 | 18,2 ГБ | Скачать | ?Связь | Официальные веса EasyAnimateV3 для разрешения текста и изображений 960x960 в видео. Тренировка со 144 кадрами и 24 кадрами в секунду. |
Имя | Тип | Место для хранения | URL | Описание |
---|---|---|---|---|
easyanimate_v1_mm.safetensors | Модуль движения | 4,1 ГБ | скачать | Тренировка с 80 кадрами и 12 кадрами в секунду. |
Имя | Тип | Место для хранения | URL | Описание |
---|---|---|---|---|
PixArt-XL-2-512x512.tar | Пиксарт | 11,4 ГБ | скачать | Официальные веса Pixart-Alpha |
easyanimate_portrait.safetensors | Контрольно-пропускной пункт Pixart | 2,3 ГБ | скачать | Обучение с использованием внутренних наборов портретных данных |
easyanimate_portrait_lora.safetensors | Лора из Pixart | 654,0 МБ | скачать | Обучение с использованием внутренних наборов портретных данных |
Этот проект распространяется по лицензии Apache (версия 2.0).