TL;DR: صورة شخصية واحدة ?♂️ + صوت ? = فيديو الرأس الناطق؟.
تم تحديث الترخيص إلى Apache 2.0، وقمنا بإزالة القيود غير التجارية
تم الآن دمج SadTalker رسميًا في Discord، حيث يمكنك استخدامه مجانًا عن طريق إرسال الملفات. يمكنك أيضًا إنشاء مقاطع فيديو عالية الجودة من خلال المطالبات النصية. ينضم:
لقد قمنا بنشر امتداد webui المستقر. تحقق من مزيد من التفاصيل هنا. فيديو تجريبي
وضع الصورة الكاملة متاح الآن! المزيد من التفاصيل...
لا يزال + محسن في v0.0.1 | لا يزال + محسن في v0.0.2 | صورة الإدخال @bagbag1815 |
---|---|---|
Still_e_n.mp4 | full_body_2.bus_chinese_enhanced.mp4 |
تتوفر الآن العديد من الأوضاع الجديدة (الأوضاع الثابتة والمرجعية وتغيير الحجم)!
يسعدنا أن نرى المزيد من العروض التوضيحية للمجتمع على bilibili وYouTube وX (#sadtalker).
يمكن العثور على سجل التغيير السابق هنا.
[2023.06.12] : تمت إضافة المزيد من الميزات الجديدة في ملحق WebUI، راجع المناقشة هنا.
[2023.06.05] : تم إصدار نموذج وجه جديد مقاس 512 × 512 بكسل (تجريبي). تم إصلاح بعض الأخطاء وتحسين الأداء.
[2023.04.15] : تمت إضافة دفتر ملاحظات WebUI Colab بواسطة @camenduru:
[2023.04.12] : تمت إضافة مستند تثبيت WebUI أكثر تفصيلاً وإصلاح مشكلة عند إعادة التثبيت.
[2023.04.12] : تم إصلاح المشكلات الآمنة لواجهة WebUI بسبب حزم الجهات الخارجية، وتحسين مسار الإخراج في sd-webui-extension
.
[2023.04.08] : في الإصدار 0.0.2، أضفنا علامة مائية للشعار إلى الفيديو الذي تم إنشاؤه لمنع إساءة الاستخدام. تمت إزالة هذه العلامة المائية منذ ذلك الحين في إصدار لاحق.
[2023.04.08] : في الإصدار 0.0.2، أضفنا ميزات للرسوم المتحركة الكاملة للصورة ورابطًا لتنزيل نقاط التفتيش من Baidu. لقد قمنا أيضًا بتحسين منطق المحسن.
نحن نتتبع التحديثات الجديدة في الإصدار رقم 280.
إذا كانت لديك أية مشكلات، فيرجى قراءة الأسئلة الشائعة قبل فتح أي مشكلة.
دروس المجتمع: 中文Windows教程 (برنامج تعليمي لنظام Windows الصيني) | 日本語コス(برنامج تعليمي ياباني).
قم بتثبيت Anaconda وPython و git
.
إنشاء البيئة وتثبيت المتطلبات.
git clone https://github.com/OpenTalker/SadTalker.git
cd SadTalker
conda create -n sadtalker python=3.8
conda activate sadtalker
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt
# ## Coqui TTS is optional for gradio demo.
# ## pip install TTS
يتوفر فيديو تعليمي باللغة الصينية هنا. يمكنك أيضًا اتباع الإرشادات التالية:
scoop install git
.ffmpeg
باتباع هذا البرنامج التعليمي أو باستخدام سبق صحفي: scoop install ffmpeg
.git clone https://github.com/Winfredy/SadTalker.git
.start.bat
من مستكشف Windows كالمعتاد، وسيتم بدء تشغيل عرض توضيحي لـ WebUI غير المسؤول والمستخدم وWebUI الذي يعمل بنظام Gradio.يمكن العثور على برنامج تعليمي حول تثبيت SadTalker على نظام التشغيل macOS هنا.
يرجى الاطلاع على دروس إضافية هنا.
يمكنك تشغيل البرنامج النصي التالي على Linux/macOS لتنزيل جميع النماذج تلقائيًا:
bash scripts/download_models.sh
نوفر أيضًا تصحيحًا دون الاتصال بالإنترنت ( gfpgan/
)، لذلك لن يتم تنزيل أي نموذج عند الإنشاء.
sadt
)sadt
)يوضح النموذج:
نموذج | وصف |
---|---|
نقاط التفتيش/mapping_00229-model.pth.tar | MappingNet المدربة مسبقًا في Sadtalker. |
نقاط التفتيش/mapping_00109-model.pth.tar | MappingNet المدربة مسبقًا في Sadtalker. |
نقاط التفتيش/SadTalker_V0.0.2_256.safetensors | نقاط تفتيش Sadtalker المعبأة من الإصدار القديم، 256 عرض للوجه). |
نقاط التفتيش/SadTalker_V0.0.2_512.safetensors | نقاط تفتيش Sadtalker المعبأة من الإصدار القديم، 512 تقديم الوجه). |
gfpgan/الأوزان | كشف الوجه والنماذج المحسنة المستخدمة في facexlib و gfpgan . |
نموذج | وصف |
---|---|
نقاط التفتيش/auido2exp_00300-model.pth | ExpNet المدربة مسبقًا في Sadtalker. |
نقاط التفتيش/auido2pose_00140-model.pth | PoseVAE المدربة مسبقًا في Sadtalker. |
نقاط التفتيش/mapping_00229-model.pth.tar | MappingNet المدربة مسبقًا في Sadtalker. |
نقاط التفتيش/mapping_00109-model.pth.tar | MappingNet المدربة مسبقًا في Sadtalker. |
نقاط التفتيش/facevid2vid_00189-model.pth.tar | نموذج وجه vid2vid مُدرب مسبقًا من عودة ظهور وجه vid2vid. |
نقاط التفتيش/epoch_20.pth | مستخرج 3DMM مدرب مسبقًا في Deep3DFaceReconstruction. |
نقاط التفتيش/wav2lip.pth | نموذج مزامنة الشفاه عالي الدقة في Wav2lip. |
نقاط التفتيش/shape_predictor_68_face_landmarks.dat | نموذج الوجه التاريخي المستخدم في dilb. |
نقاط التفتيش/ آلية تلقي اقتراحات المستفيدين وملاحظاتهم وشكاويهم | ملف مكتبة 3DMM. |
نقاط التفتيش / المحور | نماذج كشف الوجه المستخدمة في محاذاة الوجه. |
gfpgan/الأوزان | كشف الوجه والنماذج المحسنة المستخدمة في facexlib و gfpgan . |
سيتم عرض المجلد الأخير على النحو التالي:
يرجى قراءة وثيقتنا حول أفضل الممارسات ونصائح التكوين
العرض التوضيحي عبر الإنترنت : HuggingFace | SDWebUI-كولاب | كولاب
ملحق WebUI المحلي : يرجى الرجوع إلى مستندات WebUI.
عرض توضيحي للتدرج المحلي (مستحسن) : يمكن تشغيل مثيل Gradio المشابه للعرض التوضيحي Hugging Face الخاص بنا محليًا:
# # you need manually install TTS(https://github.com/coqui-ai/TTS) via `pip install tts` in advanced.
python app_sadtalker.py
يمكنك أيضًا البدء فيه بسهولة أكبر:
webui.bat
، وسيتم تثبيت المتطلبات تلقائيًا.bash webui.sh
لبدء webui.python inference.py --driven_audio < audio.wav >
--source_image < video.mp4 or picture.png >
--enhancer gfpgan
سيتم حفظ النتائج في results/$SOME_TIMESTAMP/*.mp4
.
استخدام --still
لإنشاء فيديو طبيعي لكامل الجسم. يمكنك إضافة enhancer
لتحسين جودة الفيديو الذي تم إنشاؤه.
python inference.py --driven_audio < audio.wav >
--source_image < video.mp4 or picture.png >
--result_dir < a file to store results >
--still
--preprocess full
--enhancer gfpgan
يمكن العثور على المزيد من الأمثلة والتكوينات والنصائح في >>> وثائق أفضل الممارسات <<<.
إذا وجدت عملنا مفيدًا في بحثك، فيرجى مراعاة الاستشهاد بما يلي:
@article { zhang2022sadtalker ,
title = { SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation } ,
author = { Zhang, Wenxuan and Cun, Xiaodong and Wang, Xuan and Zhang, Yong and Shen, Xi and Guo, Yu and Shan, Ying and Wang, Fei } ,
journal = { arXiv preprint arXiv:2211.12194 } ,
year = { 2022 }
}
يستعير كود Facerender بشكل كبير من إعادة إنتاج zhanglonghao لـface-vid2vid وPIRender. نشكر المؤلفين على مشاركة الكود الرائع الخاص بهم. في عملية التدريب، استخدمنا أيضًا النموذج من Deep3DFaceReconstruction وWav2lip. ونشكرهم على عملهم الرائع.
نستخدم أيضًا مكتبات الطرف الثالث التالية:
هذا ليس منتجًا رسميًا لشركة Tencent.
1. Please carefully read and comply with the open-source license applicable to this code before using it.
2. Please carefully read and comply with the intellectual property declaration applicable to this code before using it.
3. This open-source code runs completely offline and does not collect any personal information or other data. If you use this code to provide services to end-users and collect related data, please take necessary compliance measures according to applicable laws and regulations (such as publishing privacy policies, adopting necessary data security strategies, etc.). If the collected data involves personal information, user consent must be obtained (if applicable). Any legal liabilities arising from this are unrelated to Tencent.
4. Without Tencent's written permission, you are not authorized to use the names or logos legally owned by Tencent, such as "Tencent." Otherwise, you may be liable for legal responsibilities.
5. This open-source code does not have the ability to directly provide services to end-users. If you need to use this code for further model training or demos, as part of your product to provide services to end-users, or for similar use, please comply with applicable laws and regulations for your product or service. Any legal liabilities arising from this are unrelated to Tencent.
6. It is prohibited to use this open-source code for activities that harm the legitimate rights and interests of others (including but not limited to fraud, deception, infringement of others' portrait rights, reputation rights, etc.), or other behaviors that violate applicable laws and regulations or go against social ethics and good customs (including providing incorrect or false information, spreading pornographic, terrorist, and violent information, etc.). Otherwise, you may be liable for legal responsibilities.
الشعار: اقتراح اللون والخط: ChatGPT، خط الشعار: Montserrat Alternates .
جميع حقوق الطبع والنشر للصور التجريبية والصوت هي من مستخدمي المجتمع أو من الجيل من الانتشار المستقر. لا تتردد في الاتصال بنا إذا كنت ترغب في استخدامها لإزالتها.