تنزيل SadTalker - تنزيل كود مصدر SadTalker

SadTalker

شفرة المصدر الأخرى

v0.0.2 rc Release Note

تنزيل

وينكسوان تشانغ ^*،1،2 شياو دونغ كون ^*،2 شوان وانغ ³ يونغ تشانغ ² شي شين ²
يو غو ¹ ينغ شان ² فاي وانغ ¹

¹ جامعة شيان جياوتونغ ² مختبر تينسنت للذكاء الاصطناعي ³ مجموعة النمل

سي في بي آر 2023

com.sadtalker

TL;DR: صورة شخصية واحدة ?‍♂️ + صوت ? = فيديو الرأس الناطق؟.

أبرز

تم تحديث الترخيص إلى Apache 2.0، وقمنا بإزالة القيود غير التجارية
تم الآن دمج SadTalker رسميًا في Discord، حيث يمكنك استخدامه مجانًا عن طريق إرسال الملفات. يمكنك أيضًا إنشاء مقاطع فيديو عالية الجودة من خلال المطالبات النصية. ينضم:
لقد قمنا بنشر امتداد webui المستقر. تحقق من مزيد من التفاصيل هنا. فيديو تجريبي
وضع الصورة الكاملة متاح الآن! المزيد من التفاصيل...

لا يزال + محسن في v0.0.1	لا يزال + محسن في v0.0.2	صورة الإدخال @bagbag1815
Still_e_n.mp4	full_body_2.bus_chinese_enhanced.mp4

تتوفر الآن العديد من الأوضاع الجديدة (الأوضاع الثابتة والمرجعية وتغيير الحجم)!
يسعدنا أن نرى المزيد من العروض التوضيحية للمجتمع على bilibili وYouTube وX (#sadtalker).

سجل التغيير

يمكن العثور على سجل التغيير السابق هنا.

[2023.06.12] : تمت إضافة المزيد من الميزات الجديدة في ملحق WebUI، راجع المناقشة هنا.
[2023.06.05] : تم إصدار نموذج وجه جديد مقاس 512 × 512 بكسل (تجريبي). تم إصلاح بعض الأخطاء وتحسين الأداء.
[2023.04.15] : تمت إضافة دفتر ملاحظات WebUI Colab بواسطة @camenduru:
[2023.04.12] : تمت إضافة مستند تثبيت WebUI أكثر تفصيلاً وإصلاح مشكلة عند إعادة التثبيت.
[2023.04.12] : تم إصلاح المشكلات الآمنة لواجهة WebUI بسبب حزم الجهات الخارجية، وتحسين مسار الإخراج في sd-webui-extension .
[2023.04.08] : في الإصدار 0.0.2، أضفنا علامة مائية للشعار إلى الفيديو الذي تم إنشاؤه لمنع إساءة الاستخدام. تمت إزالة هذه العلامة المائية منذ ذلك الحين في إصدار لاحق.
[2023.04.08] : في الإصدار 0.0.2، أضفنا ميزات للرسوم المتحركة الكاملة للصورة ورابطًا لتنزيل نقاط التفتيش من Baidu. لقد قمنا أيضًا بتحسين منطق المحسن.

المهام

نحن نتتبع التحديثات الجديدة في الإصدار رقم 280.

استكشاف الأخطاء وإصلاحها

إذا كانت لديك أية مشكلات، فيرجى قراءة الأسئلة الشائعة قبل فتح أي مشكلة.

1. التثبيت.

دروس المجتمع: 中文Windows教程 (برنامج تعليمي لنظام Windows الصيني) | 日本語コス(برنامج تعليمي ياباني).

لينكس/يونكس

قم بتثبيت Anaconda وPython و git .
إنشاء البيئة وتثبيت المتطلبات.

git clone https://github.com/OpenTalker/SadTalker.git

cd SadTalker 

conda create -n sadtalker python=3.8

conda activate sadtalker

pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113

conda install ffmpeg

pip install -r requirements.txt

# ## Coqui TTS is optional for gradio demo. 
# ## pip install TTS

ويندوز

يتوفر فيديو تعليمي باللغة الصينية هنا. يمكنك أيضًا اتباع الإرشادات التالية:

قم بتثبيت Python 3.8 وتحقق من "إضافة Python إلى PATH".
قم بتثبيت git يدويًا أو باستخدام Scoop: scoop install git .
قم بتثبيت ffmpeg باتباع هذا البرنامج التعليمي أو باستخدام سبق صحفي: scoop install ffmpeg .
قم بتنزيل مستودع SadTalker عن طريق تشغيل git clone https://github.com/Winfredy/SadTalker.git .
قم بتنزيل نقاط التفتيش ونماذج gfpgan في قسم التنزيلات.
قم بتشغيل start.bat من مستكشف Windows كالمعتاد، وسيتم بدء تشغيل عرض توضيحي لـ WebUI غير المسؤول والمستخدم وWebUI الذي يعمل بنظام Gradio.

ماك

يمكن العثور على برنامج تعليمي حول تثبيت SadTalker على نظام التشغيل macOS هنا.

عامل الميناء، WSL، الخ

يرجى الاطلاع على دروس إضافية هنا.

2. تنزيل النماذج

يمكنك تشغيل البرنامج النصي التالي على Linux/macOS لتنزيل جميع النماذج تلقائيًا:

bash scripts/download_models.sh

نوفر أيضًا تصحيحًا دون الاتصال بالإنترنت ( gfpgan/ )، لذلك لن يتم تنزيل أي نموذج عند الإنشاء.

نماذج تم تدريبها مسبقًا

جوجل درايف
إصدارات جيثب
بايدو (百度云盘) (كلمة المرور: sadt )

تصحيح GFPGAN غير متصل

جوجل درايف
إصدارات جيثب
بايدو (百度云盘) (كلمة المرور: sadt )

تفاصيل النموذج

يوضح النموذج:

نسخة جديدة

نموذج	وصف
نقاط التفتيش/mapping_00229-model.pth.tar	MappingNet المدربة مسبقًا في Sadtalker.
نقاط التفتيش/mapping_00109-model.pth.tar	MappingNet المدربة مسبقًا في Sadtalker.
نقاط التفتيش/SadTalker_V0.0.2_256.safetensors	نقاط تفتيش Sadtalker المعبأة من الإصدار القديم، 256 عرض للوجه).
نقاط التفتيش/SadTalker_V0.0.2_512.safetensors	نقاط تفتيش Sadtalker المعبأة من الإصدار القديم، 512 تقديم الوجه).
gfpgan/الأوزان	كشف الوجه والنماذج المحسنة المستخدمة في `facexlib` و `gfpgan` .

النسخة القديمة

نموذج	وصف
نقاط التفتيش/auido2exp_00300-model.pth	ExpNet المدربة مسبقًا في Sadtalker.
نقاط التفتيش/auido2pose_00140-model.pth	PoseVAE المدربة مسبقًا في Sadtalker.
نقاط التفتيش/mapping_00229-model.pth.tar	MappingNet المدربة مسبقًا في Sadtalker.
نقاط التفتيش/mapping_00109-model.pth.tar	MappingNet المدربة مسبقًا في Sadtalker.
نقاط التفتيش/facevid2vid_00189-model.pth.tar	نموذج وجه vid2vid مُدرب مسبقًا من عودة ظهور وجه vid2vid.
نقاط التفتيش/epoch_20.pth	مستخرج 3DMM مدرب مسبقًا في Deep3DFaceReconstruction.
نقاط التفتيش/wav2lip.pth	نموذج مزامنة الشفاه عالي الدقة في Wav2lip.
نقاط التفتيش/shape_predictor_68_face_landmarks.dat	نموذج الوجه التاريخي المستخدم في dilb.
نقاط التفتيش/ آلية تلقي اقتراحات المستفيدين وملاحظاتهم وشكاويهم	ملف مكتبة 3DMM.
نقاط التفتيش / المحور	نماذج كشف الوجه المستخدمة في محاذاة الوجه.
gfpgan/الأوزان	كشف الوجه والنماذج المحسنة المستخدمة في `facexlib` و `gfpgan` .

سيتم عرض المجلد الأخير على النحو التالي:

3. البداية السريعة

يرجى قراءة وثيقتنا حول أفضل الممارسات ونصائح التكوين

عروض WebUI التجريبية

العرض التوضيحي عبر الإنترنت : HuggingFace | SDWebUI-كولاب | كولاب

ملحق WebUI المحلي : يرجى الرجوع إلى مستندات WebUI.

عرض توضيحي للتدرج المحلي (مستحسن) : يمكن تشغيل مثيل Gradio المشابه للعرض التوضيحي Hugging Face الخاص بنا محليًا:

 # # you need manually install TTS(https://github.com/coqui-ai/TTS) via `pip install tts` in advanced.
python app_sadtalker.py

يمكنك أيضًا البدء فيه بسهولة أكبر:

windows: فقط انقر نقرًا مزدوجًا فوق webui.bat ، وسيتم تثبيت المتطلبات تلقائيًا.
Linux/Mac OS: قم بتشغيل bash webui.sh لبدء webui.

استخدام سطر الأوامر

تحريك صورة عمودية من التكوين الافتراضي:

python inference.py --driven_audio < audio.wav > 
                    --source_image < video.mp4 or picture.png > 
                    --enhancer gfpgan

سيتم حفظ النتائج في results/$SOME_TIMESTAMP/*.mp4 .

إنشاء كامل الجسم/الصورة:

استخدام --still لإنشاء فيديو طبيعي لكامل الجسم. يمكنك إضافة enhancer لتحسين جودة الفيديو الذي تم إنشاؤه.

python inference.py --driven_audio < audio.wav > 
                    --source_image < video.mp4 or picture.png > 
                    --result_dir < a file to store results > 
                    --still 
                    --preprocess full 
                    --enhancer gfpgan

يمكن العثور على المزيد من الأمثلة والتكوينات والنصائح في >>> وثائق أفضل الممارسات <<<.

الاقتباس

إذا وجدت عملنا مفيدًا في بحثك، فيرجى مراعاة الاستشهاد بما يلي:

 @article { zhang2022sadtalker ,
  title = { SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation } ,
  author = { Zhang, Wenxuan and Cun, Xiaodong and Wang, Xuan and Zhang, Yong and Shen, Xi and Guo, Yu and Shan, Ying and Wang, Fei } ,
  journal = { arXiv preprint arXiv:2211.12194 } ,
  year = { 2022 }
}

شكر وتقدير

يستعير كود Facerender بشكل كبير من إعادة إنتاج zhanglonghao لـface-vid2vid وPIRender. نشكر المؤلفين على مشاركة الكود الرائع الخاص بهم. في عملية التدريب، استخدمنا أيضًا النموذج من Deep3DFaceReconstruction وWav2lip. ونشكرهم على عملهم الرائع.

نستخدم أيضًا مكتبات الطرف الثالث التالية:

أدوات الوجه : https://github.com/xinntao/facexlib
تحسين الوجه : https://github.com/TencentARC/GFPGAN
تحسين الصورة/الفيديو :https://github.com/xinntao/Real-ESRGAN

الامتدادات:

SadTalker-Video-Lip-Sync من @Zz-ww: SadTalker لتحرير الشفاه بالفيديو

الأعمال ذات الصلة

StyleHEAT: إنشاء وجه ناطق عالي الدقة وقابل للتحرير بلقطة واحدة عبر StyleGAN المدرب مسبقًا (ECCV 2022)
CodeTalker: رسوم متحركة للوجه ثلاثية الأبعاد تعتمد على الكلام مع حركة منفصلة مسبقة (CVPR 2023)
VideoReTalking: مزامنة الشفاه المستندة إلى الصوت لتحرير فيديو Talking Head في البرية (SIGGRAPH Asia 2022)
DPE: فك تشابك الوضع والتعبير لتحرير صور الفيديو العامة (CVPR 2023)
انعكاس GAN ثلاثي الأبعاد مع تماثل الوجه مسبقًا (CVPR 2023)
T2M-GPT: توليد الحركة البشرية من الأوصاف النصية ذات التمثيلات المنفصلة (CVPR 2023)

تنصل

هذا ليس منتجًا رسميًا لشركة Tencent.

 1. Please carefully read and comply with the open-source license applicable to this code before using it. 
2. Please carefully read and comply with the intellectual property declaration applicable to this code before using it.
3. This open-source code runs completely offline and does not collect any personal information or other data. If you use this code to provide services to end-users and collect related data, please take necessary compliance measures according to applicable laws and regulations (such as publishing privacy policies, adopting necessary data security strategies, etc.). If the collected data involves personal information, user consent must be obtained (if applicable). Any legal liabilities arising from this are unrelated to Tencent.
4. Without Tencent's written permission, you are not authorized to use the names or logos legally owned by Tencent, such as "Tencent." Otherwise, you may be liable for legal responsibilities.
5. This open-source code does not have the ability to directly provide services to end-users. If you need to use this code for further model training or demos, as part of your product to provide services to end-users, or for similar use, please comply with applicable laws and regulations for your product or service. Any legal liabilities arising from this are unrelated to Tencent.
6. It is prohibited to use this open-source code for activities that harm the legitimate rights and interests of others (including but not limited to fraud, deception, infringement of others' portrait rights, reputation rights, etc.), or other behaviors that violate applicable laws and regulations or go against social ethics and good customs (including providing incorrect or false information, spreading pornographic, terrorist, and violent information, etc.). Otherwise, you may be liable for legal responsibilities.

الشعار: اقتراح اللون والخط: ChatGPT، خط الشعار: Montserrat Alternates .

جميع حقوق الطبع والنشر للصور التجريبية والصوت هي من مستخدمي المجتمع أو من الجيل من الانتشار المستقر. لا تتردد في الاتصال بنا إذا كنت ترغب في استخدامها لإزالتها.

يوسع

معلومات إضافية

الإصدار v0.0.2 rc Release Note
النوع شفرة المصدر الأخرى
وقت التحديث 2024-12-05
الحجم 50MB
من Github

تطبيقات ذات صلة

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
SmartTube

شفرة المصدر الأخرى

24.71 Stable
Sunamu

شفرة المصدر الأخرى

Release 2.2.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
wp functions

فئات أخرى

1.0.0
termwind

فئات أخرى

v2.3.0

أخبار ذات صلة الكل