TL;DR: ภาพบุคคลเดี่ยว ?♂️ + เสียง ? = วิดีโอหัวพูด ?.
ใบอนุญาตได้รับการอัปเดตเป็น Apache 2.0 และเราได้ลบข้อจำกัดที่ไม่ใช่เชิงพาณิชย์แล้ว
ตอนนี้ SadTalker ได้รับการรวมเข้ากับ Discord อย่างเป็นทางการแล้ว ซึ่งคุณสามารถใช้งานได้ฟรีโดยการส่งไฟล์ คุณยังสามารถสร้างวิดีโอคุณภาพสูงได้จากข้อความแจ้ง เข้าร่วม:
เราได้เผยแพร่ส่วนขยาย stable-diffusion-webui ดูรายละเอียดเพิ่มเติมได้ที่นี่ วิดีโอสาธิต
โหมดภาพเต็มพร้อมใช้งานแล้ว! รายละเอียดเพิ่มเติม...
ยังคง + ตัวเพิ่มประสิทธิภาพใน v0.0.1 | ยังคง + ตัวเพิ่มประสิทธิภาพใน v0.0.2 | อินพุตรูปภาพ @bagbag1815 |
---|---|---|
still_e_n.mp4 | full_body_2.bus_chinese_enhanced.mp4 |
โหมดใหม่หลายโหมด (โหมดภาพนิ่ง อ้างอิง และปรับขนาด) พร้อมใช้งานแล้ว!
เราดีใจที่ได้เห็นการสาธิตชุมชนเพิ่มเติมบน bilibili, YouTube และ X (#sadtalker)
สามารถดูบันทึกการเปลี่ยนแปลงก่อนหน้านี้ได้ที่นี่
[2023.06.12] : เพิ่มคุณสมบัติใหม่เพิ่มเติมในส่วนขยาย WebUI ดูการสนทนาที่นี่
[2023.06.05] : เปิดตัวโมเดลใบหน้าใหม่ 512x512px (เบต้า) แก้ไขข้อบกพร่องและปรับปรุงประสิทธิภาพ
[2023.04.15] : เพิ่มสมุดบันทึก WebUI Colab โดย @camenduru:
[2023.04.12] : เพิ่มเอกสารการติดตั้ง WebUI ที่ละเอียดยิ่งขึ้น และแก้ไขปัญหาเมื่อติดตั้งใหม่
[2023.04.12] : แก้ไขปัญหาความปลอดภัยของ WebUI เนื่องจากแพ็คเกจของบุคคลที่สาม และปรับเส้นทางเอาต์พุตให้เหมาะสมใน sd-webui-extension
[2023.04.08] : ในเวอร์ชัน 0.0.2 เราได้เพิ่มลายน้ำโลโก้ลงในวิดีโอที่สร้างขึ้นเพื่อป้องกันการละเมิด ลายน้ำนี้ได้ถูกลบออกแล้วในรุ่นต่อๆ ไป
[2023.04.08] : ใน v0.0.2 เราได้เพิ่มคุณสมบัติสำหรับภาพเคลื่อนไหวแบบเต็มและลิงก์สำหรับดาวน์โหลดจุดตรวจจาก Baidu นอกจากนี้เรายังปรับตรรกะของเอนแฮนเซอร์ให้เหมาะสมอีกด้วย
เรากำลังติดตามการอัปเดตใหม่ในฉบับ #280
หากคุณมีปัญหาใดๆ โปรดอ่านคำถามที่พบบ่อยของเราก่อนที่จะเปิดปัญหา
บทช่วยสอนชุมชน: 中文Windows教程 (บทช่วยสอน Windows ภาษาจีน) | 日本語ECOース (บทช่วยสอนภาษาญี่ปุ่น)
ติดตั้ง Anaconda, Python และ git
การสร้าง env และติดตั้งข้อกำหนด
git clone https://github.com/OpenTalker/SadTalker.git
cd SadTalker
conda create -n sadtalker python=3.8
conda activate sadtalker
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt
# ## Coqui TTS is optional for gradio demo.
# ## pip install TTS
มีวิดีโอสอนภาษาจีนอยู่ที่นี่ คุณยังสามารถทำตามคำแนะนำต่อไปนี้:
scoop install git
ffmpeg
โดยทำตามบทช่วยสอนนี้หรือใช้ Scoop: scoop install ffmpeg
git clone https://github.com/Winfredy/SadTalker.git
start.bat
จาก Windows Explorer ตามปกติ ไม่ใช่ผู้ดูแลระบบ ผู้ใช้ และการสาธิต WebUI ที่ขับเคลื่อนด้วย Gradio จะเริ่มต้นขึ้นดูบทช่วยสอนเกี่ยวกับการติดตั้ง SadTalker บน macOS ได้ที่นี่
โปรดตรวจสอบบทช่วยสอนเพิ่มเติมที่นี่
คุณสามารถเรียกใช้สคริปต์ต่อไปนี้บน Linux/macOS เพื่อดาวน์โหลดโมเดลทั้งหมดโดยอัตโนมัติ:
bash scripts/download_models.sh
นอกจากนี้เรายังมีแพตช์ออฟไลน์ ( gfpgan/
) อีกด้วย ดังนั้นจึงไม่มีการดาวน์โหลดโมเดลใดๆ เมื่อสร้าง
sadt
)sadt
)โมเดลอธิบายว่า:
แบบอย่าง | คำอธิบาย |
---|---|
จุดตรวจ/mapping_00229-model.pth.tar | MappingNet ที่ได้รับการฝึกอบรมล่วงหน้าใน Sadtalker |
จุดตรวจ/mapping_00109-model.pth.tar | MappingNet ที่ได้รับการฝึกอบรมล่วงหน้าใน Sadtalker |
จุดตรวจ/SadTalker_V0.0.2_256.safetensors | จุดตรวจ sadtalker ที่บรรจุไว้ของเวอร์ชันเก่า, การเรนเดอร์ใบหน้า 256 ครั้ง) |
จุดตรวจ/SadTalker_V0.0.2_512.safetensors | จุดตรวจ sadtalker ที่บรรจุไว้ของเวอร์ชันเก่า, การเรนเดอร์ใบหน้า 512 ครั้ง) |
gfpgan/ตุ้มน้ำหนัก | การตรวจจับใบหน้าและโมเดลที่ได้รับการปรับปรุงที่ใช้ใน facexlib และ gfpgan |
แบบอย่าง | คำอธิบาย |
---|---|
จุดตรวจ/auido2exp_00300-model.pth | ExpNet ที่ได้รับการฝึกอบรมล่วงหน้าใน Sadtalker |
จุดตรวจ/auido2pose_00140-model.pth | PoseVAE ที่ผ่านการฝึกอบรมล่วงหน้าใน Sadtalker |
จุดตรวจ/mapping_00229-model.pth.tar | MappingNet ที่ได้รับการฝึกอบรมล่วงหน้าใน Sadtalker |
จุดตรวจ/mapping_00109-model.pth.tar | MappingNet ที่ได้รับการฝึกอบรมล่วงหน้าใน Sadtalker |
จุดตรวจ/facevid2vid_00189-model.pth.tar | โมเดล face-vid2vid ที่ผ่านการฝึกอบรมมาแล้วจากการปรากฏตัวอีกครั้งของ face-vid2vid |
จุดตรวจ/epoch_20.pth | เครื่องแยก 3DMM ที่ได้รับการฝึกอบรมล่วงหน้าใน Deep3DFaceRestructor |
จุดตรวจ/wav2lip.pth | โมเดลลิปซิงค์ที่มีความแม่นยำสูงใน Wav2lip |
จุดตรวจ/shape_predictor_68_face_landmarks.dat | โมเดลจุดสังเกตใบหน้าที่ใช้ใน dilb |
ด่าน/BFM | ไฟล์ไลบรารี 3DMM |
จุดตรวจ/ศูนย์กลาง | โมเดลการตรวจจับใบหน้าที่ใช้ในการจัดตำแหน่งใบหน้า |
gfpgan/ตุ้มน้ำหนัก | การตรวจจับใบหน้าและโมเดลที่ได้รับการปรับปรุงที่ใช้ใน facexlib และ gfpgan |
โฟลเดอร์สุดท้ายจะแสดงเป็น:
โปรดอ่านเอกสารของเราเกี่ยวกับแนวทางปฏิบัติที่ดีที่สุดและเคล็ดลับในการกำหนดค่า
การสาธิตออนไลน์ : HuggingFace | SDWebUI-Colab | โคลาบ
ส่วนขยาย WebUI ท้องถิ่น : โปรดดูเอกสาร WebUI
การสาธิต gradio ในเครื่อง (แนะนำ) : อินสแตนซ์ Gradio ที่คล้ายกับการสาธิต Hugging Face ของเราสามารถเรียกใช้ในเครื่องได้:
# # you need manually install TTS(https://github.com/coqui-ai/TTS) via `pip install tts` in advanced.
python app_sadtalker.py
คุณสามารถเริ่มต้นได้ง่ายขึ้น:
webui.bat
ข้อกำหนดจะถูกติดตั้งโดยอัตโนมัติbash webui.sh
เพื่อเริ่ม webuipython inference.py --driven_audio < audio.wav >
--source_image < video.mp4 or picture.png >
--enhancer gfpgan
ผลลัพธ์จะถูกบันทึกไว้ใน results/$SOME_TIMESTAMP/*.mp4
การใช้ --still
เพื่อสร้างวิดีโอแบบเต็มตัวที่เป็นธรรมชาติ คุณสามารถเพิ่ม enhancer
เพื่อปรับปรุงคุณภาพของวิดีโอที่สร้างขึ้นได้
python inference.py --driven_audio < audio.wav >
--source_image < video.mp4 or picture.png >
--result_dir < a file to store results >
--still
--preprocess full
--enhancer gfpgan
ตัวอย่าง การกำหนดค่า และเคล็ดลับเพิ่มเติมสามารถพบได้ใน >>> เอกสารแนวปฏิบัติที่ดีที่สุด <<<
หากคุณพบว่างานของเรามีประโยชน์ในการวิจัยของคุณ โปรดพิจารณาการอ้างอิง:
@article { zhang2022sadtalker ,
title = { SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation } ,
author = { Zhang, Wenxuan and Cun, Xiaodong and Wang, Xuan and Zhang, Yong and Shen, Xi and Guo, Yu and Shan, Ying and Wang, Fei } ,
journal = { arXiv preprint arXiv:2211.12194 } ,
year = { 2022 }
}
รหัส Facerender ยืมมาจากการสร้าง face-vid2vid และ PIRender ของ zhanglonghao อย่างมาก เราขอขอบคุณผู้เขียนสำหรับการแบ่งปันรหัสที่ยอดเยี่ยมของพวกเขา ในกระบวนการฝึกอบรม เรายังใช้โมเดลจาก Deep3DFaceRestruction และ Wav2lip เราขอขอบคุณสำหรับการทำงานที่ยอดเยี่ยมของพวกเขา
เรายังใช้ไลบรารีบุคคลที่สามต่อไปนี้:
นี่ไม่ใช่ผลิตภัณฑ์อย่างเป็นทางการของ Tencent
1. Please carefully read and comply with the open-source license applicable to this code before using it.
2. Please carefully read and comply with the intellectual property declaration applicable to this code before using it.
3. This open-source code runs completely offline and does not collect any personal information or other data. If you use this code to provide services to end-users and collect related data, please take necessary compliance measures according to applicable laws and regulations (such as publishing privacy policies, adopting necessary data security strategies, etc.). If the collected data involves personal information, user consent must be obtained (if applicable). Any legal liabilities arising from this are unrelated to Tencent.
4. Without Tencent's written permission, you are not authorized to use the names or logos legally owned by Tencent, such as "Tencent." Otherwise, you may be liable for legal responsibilities.
5. This open-source code does not have the ability to directly provide services to end-users. If you need to use this code for further model training or demos, as part of your product to provide services to end-users, or for similar use, please comply with applicable laws and regulations for your product or service. Any legal liabilities arising from this are unrelated to Tencent.
6. It is prohibited to use this open-source code for activities that harm the legitimate rights and interests of others (including but not limited to fraud, deception, infringement of others' portrait rights, reputation rights, etc.), or other behaviors that violate applicable laws and regulations or go against social ethics and good customs (including providing incorrect or false information, spreading pornographic, terrorist, and violent information, etc.). Otherwise, you may be liable for legal responsibilities.
LOGO: สีและแบบอักษรที่แนะนำ: ChatGPT, แบบอักษรของโลโก้: Montserrat Alternates
ลิขสิทธิ์ทั้งหมดของภาพสาธิตและเสียงนั้นมาจากผู้ใช้ในชุมชนหรือรุ่นจากการแพร่กระจายที่เสถียร โปรดติดต่อเราหากคุณต้องการใช้เพื่อลบออก