؟ يعد EasyAnimate حلاً شاملاً لإنشاء مقاطع فيديو طويلة وعالية الدقة. يمكننا تدريب مولدات الانتشار القائمة على المحولات، وتدريب VAEs على معالجة مقاطع الفيديو الطويلة، ومعالجة البيانات الوصفية مسبقًا.
؟ نحن نستخدم DIT والمحول كموزع لتوليد الفيديو والصور.
؟ مرحباً!
الإنجليزية | 简体中文 | 日本語
EasyAnimate عبارة عن خط أنابيب يعتمد على بنية المحولات، وهو مصمم لإنشاء صور ومقاطع فيديو تعمل بالذكاء الاصطناعي، ولتدريب النماذج الأساسية ونماذج Lora لمحول Diffusion. نحن ندعم التنبؤ المباشر من نماذج EasyAnimate المدربة مسبقًا، مما يسمح بإنشاء مقاطع فيديو بدقة مختلفة، يبلغ طولها حوالي 6 ثوانٍ، بمعدل 8 إطارات في الثانية (EasyAnimateV5، من 1 إلى 49 إطارًا). بالإضافة إلى ذلك، يمكن للمستخدمين تدريب نماذجهم الأساسية ونماذج Lora لإجراء تحولات نمطية محددة.
سندعم عمليات السحب السريعة من منصات مختلفة، راجع البداية السريعة.
ميزات جديدة:
وظيفة:
واجهة المستخدم الخاصة بنا هي كما يلي:
لدى DSW وقت GPU مجاني، والذي يمكن تطبيقه مرة واحدة من قبل المستخدم ويكون صالحًا لمدة 3 أشهر بعد التقديم.
يوفر Aliyun وقتًا مجانيًا لوحدة معالجة الرسومات في Freetier، احصل عليه واستخدمه في Aliyun PAI-DSW لبدء تشغيل EasyAnimate خلال 5 دقائق!
واجهة ComfyUI الخاصة بنا هي كما يلي، يرجى الرجوع إلى ملف ComfyUI README للحصول على التفاصيل.
إذا كنت تستخدم عامل الإرساء، فيرجى التأكد من تثبيت برنامج تشغيل بطاقة الرسومات وبيئة CUDA بشكل صحيح في جهازك.
ثم قم بتنفيذ الأوامر التالية بهذه الطريقة:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate
# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate
# clone code
git clone https://github.com/aigc-apps/EasyAnimate.git
# enter EasyAnimate's dir
cd EasyAnimate
# download weights
mkdir models/Diffusion_Transformer
mkdir models/Motion_Module
mkdir models/Personalized_Model
# Please use the hugginface link or modelscope link to download the EasyAnimateV5 model.
# I2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh-InP
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh-InP
# T2V models
# https://huggingface.co/alibaba-pai/EasyAnimateV5-12b-zh
# https://modelscope.cn/models/PAI/EasyAnimateV5-12b-zh
لقد تحققنا من تنفيذ EasyAnimate في البيئة التالية:
التفاصيل الخاصة بالويندوز:
تفاصيل لينكس:
نحتاج إلى حوالي 60 جيجابايت متوفرة على القرص (لحفظ الأوزان)، يرجى التحقق!
من الأفضل أن نضع الأوزان على طول المسار المحدد:
إيزي أنيماتيV5:
? models/
├── Diffusion_Transformer/
│ ├── EasyAnimateV5-12b-zh-InP/
│ └── EasyAnimateV5-12b-zh/
├── Personalized_Model/
│ └── your trained trainformer model / your trained lora model (for UI load)
النتائج المعروضة كلها تعتمد على الصورة.
00000008.mp4 | 00000004.mp4 | 00000003.mp4 | 00000002.mp4 |
00000012.mp4 | 00000011.mp4 | 00000006.mp4 | 00000005.mp4 |
00000016.mp4 | 00000056.mp4 | 00000060.mp4 | 00000065.mp4 |
1.mp4 | 2.mp4 | 3.mp4 | 4.mp4 |
5.mp4 | 6.mp4 | 7.mp4 | 8.mp4 |
demo_pose.mp4 | demo_scribble.mp4 | Demo_Deepth.mp4 |
demo_pose_out.mp4 | demo_scribble_out.mp4 | Demo_Deep_out.mp4 |
يرجى الرجوع إلى الملف التمهيدي ComfyUI للحصول على التفاصيل.
نظرًا للمعلمات الكبيرة لـ EasyAnimateV5، نحتاج إلى التفكير في مخططات توفير ذاكرة وحدة معالجة الرسومات للحفاظ على الذاكرة. نحن نقدم خيار GPU_memory_mode
لكل ملف تنبؤ، والذي يمكن تحديده من model_cpu_offload
و model_cpu_offload_and_qfloat8
و sequential_cpu_offload
.
model_cpu_offload
إلى أنه سيتم إلغاء تحميل النموذج بأكمله إلى وحدة المعالجة المركزية بعد الاستخدام، مما يوفر بعض ذاكرة وحدة معالجة الرسومات.model_cpu_offload_and_qfloat8
إلى أنه سيتم إلغاء تحميل النموذج بأكمله إلى وحدة المعالجة المركزية بعد الاستخدام، ويتم تكميم نموذج المحول إلى float8، مما يوفر المزيد من ذاكرة وحدة معالجة الرسومات.sequential_cpu_offload
أنه سيتم إلغاء تحميل كل طبقة من النموذج إلى وحدة المعالجة المركزية بعد الاستخدام، وهو أمر أبطأ ولكنه يوفر قدرًا كبيرًا من ذاكرة وحدة معالجة الرسومات.يجب أن يتضمن مسار تدريب EasyAnimate الكامل المعالجة المسبقة للبيانات، وتدريب Video VAE، وتدريب Video DiT. ومن بين هذه البرامج، يعد التدريب على Video VAE اختياريًا لأننا قدمنا بالفعل تدريبًا مسبقًا على Video VAE.
لقد قدمنا عرضًا توضيحيًا بسيطًا لتدريب نموذج Lora من خلال بيانات الصورة، والتي يمكن العثور عليها في الويكي للحصول على التفاصيل.
يمكن أن يشير رابط المعالجة المسبقة الكامل للبيانات لتجزئة الفيديو الطويل وتنظيفه ووصفه إلى الملف README في قسم التسميات التوضيحية للفيديو.
إذا كنت ترغب في تدريب نموذج إنشاء النص على الصورة والفيديو. تحتاج إلى ترتيب مجموعة البيانات بهذا التنسيق.
? project/
├── datasets/
│ ├── internal_datasets/
│ ├── train/
│ │ ├── ? 00000001.mp4
│ │ ├── ? 00000002.jpg
│ │ └── ? .....
│ └── ? json_of_internal_datasets.json
يعد json_of_internal_datasets.json ملف JSON قياسيًا. يمكن تعيين file_path في ملف json كمسار نسبي، كما هو موضح أدناه:
[
{
"file_path" : " train/00000001.mp4 " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " video "
},
{
"file_path" : " train/00000002.jpg " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " image "
},
.....
]
يمكنك أيضًا تعيين المسار كمسار مطلق كما يلي:
[
{
"file_path" : " /mnt/data/videos/00000001.mp4 " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " video "
},
{
"file_path" : " /mnt/data/train/00000001.jpg " ,
"text" : " A group of young men in suits and sunglasses are walking down a city street. " ,
"type" : " image "
},
.....
]
يعد التدريب على VAE للفيديو خيارًا اختياريًا حيث أننا قمنا بالفعل بتوفير VAEs للفيديو المدربين مسبقًا. إذا كنت ترغب في التدريب على أداة الفيديو، فيمكنك الرجوع إلى README في قسم أداة الفيديو.
إذا كان تنسيق البيانات هو المسار النسبي أثناء المعالجة المسبقة للبيانات، فيرجى تعيين scripts/train.sh
على النحو التالي.
export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"
إذا كان تنسيق البيانات هو المسار المطلق أثناء المعالجة المسبقة للبيانات، فيرجى تعيين scripts/train.sh
على النحو التالي.
export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/json_of_internal_datasets.json"
ثم نقوم بتشغيل scripts/train.sh.
sh scripts/train.sh
للحصول على تفاصيل حول إعداد بعض المعلمات، يرجى الرجوع إلى Readme Train وReadme Lora.
إيزي أنيماتيV5:
اسم | يكتب | مساحة التخزين | تعانق الوجه | نطاق النموذج | وصف |
---|---|---|---|---|---|
EasyAnimateV5-12b-zh-InP | EasyAnimateV5 | 34 جيجابايت | ؟وصلة | ؟وصلة | الأوزان الرسمية لتحويل الصورة إلى فيديو. يدعم التنبؤ بالفيديو بدقة متعددة (512، 768، 1024)، مدرب على 49 إطارًا بمعدل 8 إطارات في الثانية، ويدعم التنبؤ ثنائي اللغة باللغتين الصينية والإنجليزية. |
EasyAnimateV5-12b-zh-Control | EasyAnimateV5 | 34 جيجابايت | ؟وصلة | ؟وصلة | التحكم بالأوزان الرسمية للفيديو، يدعم ظروف التحكم المختلفة مثل Canny، Depth، Pose، MLSD وغيرها. يدعم التنبؤ بالفيديو بدقة متعددة (512، 768، 1024) ويتم تدريبه بـ 49 إطارًا بمعدل 8 إطارات في الثانية. يتم دعم التنبؤ ثنائي اللغة باللغتين الصينية والإنجليزية. |
EasyAnimateV5-12b-zh | EasyAnimateV5 | 34 جيجابايت | ؟وصلة | ؟وصلة | الأوزان الرسمية لتحويل النص إلى فيديو. يدعم التنبؤ بالفيديو بدقة متعددة (512، 768، 1024)، مدرب على 49 إطارًا بمعدل 8 إطارات في الثانية، ويدعم التنبؤ ثنائي اللغة باللغتين الصينية والإنجليزية. |
اسم | يكتب | مساحة التخزين | عنوان URL | تعانق الوجه | وصف |
---|---|---|---|---|---|
EasyAnimateV4-XL-2-InP.tar.gz | EasyAnimateV4 | قبل الاستخراج: 8.9 جيجا بايت / بعد الاستخراج: 14.0 جيجا بايت | تحميل | ؟وصلة | نموذج الفيديو الرسمي المولد بالرسوم البيانية قادر على التنبؤ بمقاطع الفيديو بدقة متعددة (512، 768، 1024، 1280) وقد تم تدريبه على 144 إطارًا بمعدل 24 إطارًا في الثانية. |
اسم | يكتب | مساحة التخزين | عنوان URL | تعانق الوجه | وصف |
---|---|---|---|---|---|
EasyAnimateV3-XL-2-InP-512x512.tar | EasyAnimateV3 | 18.2 جيجابايت | تحميل | ؟وصلة | الأوزان الرسمية لـ EasyAnimateV3 للنص والصورة بدقة 512x512 إلى دقة الفيديو. التدريب بـ 144 إطارًا و24 إطارًا في الثانية |
EasyAnimateV3-XL-2-InP-768x768.tar | EasyAnimateV3 | 18.2 جيجابايت | تحميل | ؟وصلة | الأوزان الرسمية لـ EasyAnimateV3 للنص والصورة بدقة 768 × 768 إلى دقة الفيديو. التدريب بـ 144 إطارًا و24 إطارًا في الثانية |
EasyAnimateV3-XL-2-InP-960x960.tar | EasyAnimateV3 | 18.2 جيجابايت | تحميل | ؟وصلة | الأوزان الرسمية لـ EasyAnimateV3 لدقة 960x960 للنص والصورة إلى دقة الفيديو. التدريب بـ 144 إطارًا و24 إطارًا في الثانية |
اسم | يكتب | مساحة التخزين | عنوان URL | وصف |
---|---|---|---|---|
easyanimate_v1_mm.safetensors | وحدة الحركة | 4.1 جيجابايت | تحميل | التدريب بـ 80 إطارًا و12 إطارًا في الثانية |
اسم | يكتب | مساحة التخزين | عنوان URL | وصف |
---|---|---|---|---|
بيكس آرت-XL-2-512x512.tar | بيكسارت | 11.4 جيجابايت | تحميل | الأوزان الرسمية لـ Pixart-Alpha |
easyanimate_portrait.safetensors | نقطة تفتيش Pixart | 2.3 جيجابايت | تحميل | التدريب على مجموعات البيانات الداخلية |
easyanimate_portrait_lora.safetensors | لورا من بيكسارت | 654.0 ميجابايت | تحميل | التدريب على مجموعات البيانات الداخلية |
هذا المشروع مرخص بموجب ترخيص Apache (الإصدار 2.0).