? EasyAnimate は、高解像度の長いビデオを生成するためのエンドツーエンドのソリューションです。トランスフォーマーベースの拡散ジェネレーターをトレーニングしたり、長いビデオを処理するための VAE をトレーニングしたり、メタデータを前処理したりできます。
?ビデオや画像生成用のディフューザーとして DIT とトランスを使用します。
?いらっしゃいませ!
英語 | 简体中文 | 日本語
EasyAnimate は、トランスフォーマー アーキテクチャに基づいたパイプラインで、AI 画像とビデオを生成し、拡散トランスフォーマーのベースライン モデルと Lora モデルをトレーニングするために設計されています。事前トレーニングされた EasyAnimate モデルからの直接予測をサポートしており、さまざまな解像度で長さ約 6 秒、8fps (EasyAnimateV5、1 ~ 49 フレーム) のビデオを生成できます。さらに、ユーザーは特定のスタイル変換のために独自のベースライン モデルと Lora モデルをトレーニングできます。
さまざまなプラットフォームからのクイック プルアップをサポートします。「クイック スタート」を参照してください。
新機能:
関数:
UI インターフェイスは次のとおりです。
DSW には無料 GPU 時間があり、ユーザーは 1 回申請でき、申請後 3 か月間有効です。
Aliyun は Freetier で無料の GPU 時間を提供しており、それを取得して Aliyun PAI-DSW で使用すると、5 分以内に EasyAnimate を開始できます。
弊社の ComfyUI は次のとおりです。詳細については ComfyUI README を参照してください。
docker を使用している場合は、グラフィック カード ドライバーと CUDA 環境がマシンに正しくインストールされていることを確認してください。
次に、この方法で次のコマンドを実行します。
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate
# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate
# clone code
git clone https://github.com/aigc-apps/EasyAnimate.git
# enter EasyAnimate's dir
cd EasyAnimate
# download weights
mkdir models/Diffusion_Transformer
mkdir models/Motion_Module
mkdir models/Personalized_Model
# Please use the hugginface link or modelscope link to download the EasyAnimateV5 model.
# I2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh-InP
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh-InP
# T2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh
EasyAnimate の実行は次の環境で確認しました。
Windowsの詳細:
Linux の詳細:
(重量を節約するため) ディスク上に約 60 GB の空き容量が必要です。確認してください。
指定されたパスに沿って重みを配置する方がよいでしょう。
EasyAnimateV5:
? models/
├── Diffusion_Transformer/
│ ├── EasyAnimateV5-12b-zh-InP/
│ └── EasyAnimateV5-12b-zh/
├── Personalized_Model/
│ └── your trained trainformer model / your trained lora model (for UI load)
表示される結果はすべてイメージに基づいています。
00000008.mp4 | 00000004.mp4 | 00000003.mp4 | 00000002.mp4 |
00000012.mp4 | 00000011.mp4 | 00000006.mp4 | 00000005.mp4 |
00000016.mp4 | 00000056.mp4 | 00000060.mp4 | 00000065.mp4 |
1.mp4 | 2.mp4 | 3.mp4 | 4.mp4 |
5.mp4 | 6.mp4 | 7.mp4 | 8.mp4 |
デモポーズ.mp4 | デモ_scribble.mp4 | デモ_深さ.mp4 |
デモ_ポーズアウト.mp4 | デモ_scribble_out.mp4 | デモ_深さ_アウト.mp4 |
詳細については ComfyUI README を参照してください。
EasyAnimateV5 のパラメーターが大きいため、メモリを節約するために GPU メモリ節約スキームを考慮する必要があります。各予測ファイルにGPU_memory_mode
オプションが提供されており、 model_cpu_offload
、 model_cpu_offload_and_qfloat8
、およびsequential_cpu_offload
から選択できます。
model_cpu_offload
使用後にモデル全体が CPU にオフロードされ、GPU メモリの一部が節約されることを示します。model_cpu_offload_and_qfloat8
使用後にモデル全体が CPU にオフロードされ、トランスフォーマー モデルが float8 に量子化されて、さらに多くの GPU メモリが節約されることを示します。sequential_cpu_offload
モデルの各レイヤーが使用後に CPU にオフロードされることを意味します。これにより速度は遅くなりますが、GPU メモリのかなりの量が節約されます。完全な EasyAnimate トレーニング パイプラインには、データ前処理、ビデオ VAE トレーニング、およびビデオ DiT トレーニングが含まれている必要があります。このうち、ビデオ VAE トレーニングは、事前トレーニング済みのビデオ VAE がすでに提供されているため、オプションです。
画像データを使用して Lora モデルをトレーニングする簡単なデモを提供しました。詳細については wiki を参照してください。
長いビデオのセグメンテーション、クリーニング、および説明のための完全なデータ前処理リンクについては、ビデオ キャプション セクションの README を参照してください。
テキストから画像およびビデオ生成モデルをトレーニングする場合。データセットをこの形式に配置する必要があります。
? project/
├── datasets/
│ ├── internal_datasets/
│ ├── train/
│ │ ├── ? 00000001.mp4
│ │ ├── ? 00000002.jpg
│ │ └── ? .....
│ └── ? json_of_internal_datasets.json
json_of_internal_datasets.json は標準の JSON ファイルです。以下に示すように、json 内の file_path は相対パスとして設定できます。
[
{
"file_path" : " train/00000001.mp4 " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " video "
},
{
"file_path" : " train/00000002.jpg " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " image "
},
.....
]
次のようにパスを絶対パスとして設定することもできます。
[
{
"file_path" : " /mnt/data/videos/00000001.mp4 " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " video "
},
{
"file_path" : " /mnt/data/train/00000001.jpg " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " image "
},
.....
]
すでにトレーニング済みのビデオ VAE が提供されているため、ビデオ VAE トレーニングはオプションのオプションです。ビデオ vae をトレーニングしたい場合は、ビデオ vae セクションの README を参照してください。
データの前処理時にデータ形式が相対パスの場合は、 scripts/train.sh
以下のように設定してください。
export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"
データ前処理時にデータ形式が絶対パスの場合、 scripts/train.sh
以下のように設定してください。
export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/json_of_internal_datasets.json"
次に、scripts/train.sh を実行します。
sh scripts/train.sh
一部のパラメータの設定の詳細については、Readme Train および Readme Lora を参照してください。
EasyAnimateV5:
名前 | タイプ | 保管スペース | ハグフェイス | モデルの範囲 | 説明 |
---|---|---|---|---|---|
EasyAnimateV5-12b-zh-InP | EasyAnimateV5 | 34GB | ?リンク | ?リンク | 公式の画像からビデオへのウェイト。複数の解像度 (512、768、1024) でのビデオ予測をサポートし、毎秒 8 フレームで 49 フレームでトレーニングされ、中国語と英語のバイリンガル予測をサポートします。 |
EasyAnimateV5-12b-zh-Control | EasyAnimateV5 | 34GB | ?リンク | ?リンク | Canny、Depth、Pose、MLSD などのさまざまな制御条件をサポートする公式ビデオ コントロール ウェイト。複数の解像度 (512、768、1024) でのビデオ予測をサポートし、8 フレーム/秒で 49 フレームでトレーニングされます。中国語と英語の二か国語予測がサポートされています。 |
EasyAnimateV5-12b-zh | EasyAnimateV5 | 34GB | ?リンク | ?リンク | 公式のテキストからビデオへの重み付け。複数の解像度 (512、768、1024) でのビデオ予測をサポートし、毎秒 8 フレームで 49 フレームでトレーニングされ、中国語と英語のバイリンガル予測をサポートします。 |
名前 | タイプ | 保管スペース | URL | ハグフェイス | 説明 |
---|---|---|---|---|---|
EasyAnimateV4-XL-2-InP.tar.gz | EasyAnimateV4 | 抽出前:8.9GB / 抽出後:14.0GB | ダウンロード | ?リンク | 公式のグラフ生成ビデオ モデルは、複数の解像度 (512、768、1024、1280) でビデオを予測でき、1 秒あたり 24 フレームのレートで 144 フレームでトレーニングされています。 |
名前 | タイプ | 保管スペース | URL | ハグフェイス | 説明 |
---|---|---|---|---|---|
EasyAnimateV3-XL-2-InP-512x512.tar | EasyAnimateV3 | 18.2GB | ダウンロード | ?リンク | EasyAnimateV3 の公式ウェイトは、512x512 のテキストと画像からビデオ解像度に対応します。 144 フレームおよび fps 24 でのトレーニング |
EasyAnimateV3-XL-2-InP-768x768.tar | EasyAnimateV3 | 18.2GB | ダウンロード | ?リンク | EasyAnimateV3 の公式ウェイトは、768x768 のテキストと画像からビデオ解像度に対応します。 144 フレームおよび fps 24 でのトレーニング |
EasyAnimateV3-XL-2-InP-960x960.tar | EasyAnimateV3 | 18.2GB | ダウンロード | ?リンク | EasyAnimateV3 の公式ウェイトは、960x960 のテキストと画像からビデオ解像度に対応します。 144 フレームおよび fps 24 でのトレーニング |
名前 | タイプ | 保管スペース | URL | 説明 |
---|---|---|---|---|
easyanimate_v1_mm.safetensors | モーションモジュール | 4.1GB | ダウンロード | 80 フレームおよび fps 12 でのトレーニング |
名前 | タイプ | 保管スペース | URL | 説明 |
---|---|---|---|---|
PixArt-XL-2-512x512.tar | ピクアート | 11.4GB | ダウンロード | Pixart-Alpha 公式ウェイト |
easyanimate_portrait.safetensors | Pixartのチェックポイント | 2.3GB | ダウンロード | 内部ポートレート データセットを使用したトレーニング |
easyanimate_portrait_lora.safetensors | ピクアートのローラ | 654.0MB | ダウンロード | 内部ポートレート データセットを使用したトレーニング |
このプロジェクトは、Apache License (バージョン 2.0) に基づいてライセンスされています。