ดาวน์โหลด SadTalker - ดาวน์โหลดซอร์สโค้ด SadTalker

SadTalker

ซอร์สโค้ดอื่น ๆ

v0.0.2 rc Release Note

ดาวน์โหลด

เหวินซวน จาง ^*,1,2 เสี่ยวตง ชุน ^*,2 ซวน หวาง ³ หยง จาง ² ซีเซิน ²
หยูกัว ¹ หยิงซาน ² เฟยหวาง ¹

¹ มหาวิทยาลัย Xi'an Jiaotong ² Tencent AI Lab ³ Ant Group

ซีพีอาร์ 2023

นักพูดเศร้า

TL;DR: ภาพบุคคลเดี่ยว ?‍♂️ + เสียง ? = วิดีโอหัวพูด ?.

ไฮไลท์

ใบอนุญาตได้รับการอัปเดตเป็น Apache 2.0 และเราได้ลบข้อจำกัดที่ไม่ใช่เชิงพาณิชย์แล้ว
ตอนนี้ SadTalker ได้รับการรวมเข้ากับ Discord อย่างเป็นทางการแล้ว ซึ่งคุณสามารถใช้งานได้ฟรีโดยการส่งไฟล์ คุณยังสามารถสร้างวิดีโอคุณภาพสูงได้จากข้อความแจ้ง เข้าร่วม:
เราได้เผยแพร่ส่วนขยาย stable-diffusion-webui ดูรายละเอียดเพิ่มเติมได้ที่นี่ วิดีโอสาธิต
โหมดภาพเต็มพร้อมใช้งานแล้ว! รายละเอียดเพิ่มเติม...

ยังคง + ตัวเพิ่มประสิทธิภาพใน v0.0.1	ยังคง + ตัวเพิ่มประสิทธิภาพใน v0.0.2	อินพุตรูปภาพ @bagbag1815
still_e_n.mp4	full_body_2.bus_chinese_enhanced.mp4

โหมดใหม่หลายโหมด (โหมดภาพนิ่ง อ้างอิง และปรับขนาด) พร้อมใช้งานแล้ว!
เราดีใจที่ได้เห็นการสาธิตชุมชนเพิ่มเติมบน bilibili, YouTube และ X (#sadtalker)

บันทึกการเปลี่ยนแปลง

สามารถดูบันทึกการเปลี่ยนแปลงก่อนหน้านี้ได้ที่นี่

[2023.06.12] : เพิ่มคุณสมบัติใหม่เพิ่มเติมในส่วนขยาย WebUI ดูการสนทนาที่นี่
[2023.06.05] : เปิดตัวโมเดลใบหน้าใหม่ 512x512px (เบต้า) แก้ไขข้อบกพร่องและปรับปรุงประสิทธิภาพ
[2023.04.15] : เพิ่มสมุดบันทึก WebUI Colab โดย @camenduru:
[2023.04.12] : เพิ่มเอกสารการติดตั้ง WebUI ที่ละเอียดยิ่งขึ้น และแก้ไขปัญหาเมื่อติดตั้งใหม่
[2023.04.12] : แก้ไขปัญหาความปลอดภัยของ WebUI เนื่องจากแพ็คเกจของบุคคลที่สาม และปรับเส้นทางเอาต์พุตให้เหมาะสมใน sd-webui-extension
[2023.04.08] : ในเวอร์ชัน 0.0.2 เราได้เพิ่มลายน้ำโลโก้ลงในวิดีโอที่สร้างขึ้นเพื่อป้องกันการละเมิด ลายน้ำนี้ได้ถูกลบออกแล้วในรุ่นต่อๆ ไป
[2023.04.08] : ใน v0.0.2 เราได้เพิ่มคุณสมบัติสำหรับภาพเคลื่อนไหวแบบเต็มและลิงก์สำหรับดาวน์โหลดจุดตรวจจาก Baidu นอกจากนี้เรายังปรับตรรกะของเอนแฮนเซอร์ให้เหมาะสมอีกด้วย

สิ่งที่ต้องทำ

เรากำลังติดตามการอัปเดตใหม่ในฉบับ #280

การแก้ไขปัญหา

หากคุณมีปัญหาใดๆ โปรดอ่านคำถามที่พบบ่อยของเราก่อนที่จะเปิดปัญหา

1. การติดตั้ง

บทช่วยสอนชุมชน: 中文Windows教程 (บทช่วยสอน Windows ภาษาจีน) | 日本語ECOース (บทช่วยสอนภาษาญี่ปุ่น)

ลินุกซ์/ยูนิกซ์

ติดตั้ง Anaconda, Python และ git
การสร้าง env และติดตั้งข้อกำหนด

git clone https://github.com/OpenTalker/SadTalker.git

cd SadTalker 

conda create -n sadtalker python=3.8

conda activate sadtalker

pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113

conda install ffmpeg

pip install -r requirements.txt

# ## Coqui TTS is optional for gradio demo. 
# ## pip install TTS

หน้าต่าง

มีวิดีโอสอนภาษาจีนอยู่ที่นี่ คุณยังสามารถทำตามคำแนะนำต่อไปนี้:

ติดตั้ง Python 3.8 และทำเครื่องหมายที่ "Add Python to PATH"
ติดตั้ง git ด้วยตนเองหรือใช้ Scoop: scoop install git
ติดตั้ง ffmpeg โดยทำตามบทช่วยสอนนี้หรือใช้ Scoop: scoop install ffmpeg
ดาวน์โหลดที่เก็บ SadTalker โดยเรียกใช้ git clone https://github.com/Winfredy/SadTalker.git
ดาวน์โหลดจุดตรวจสอบและโมเดล gfpgan ในส่วนการดาวน์โหลด
เรียกใช้ start.bat จาก Windows Explorer ตามปกติ ไม่ใช่ผู้ดูแลระบบ ผู้ใช้ และการสาธิต WebUI ที่ขับเคลื่อนด้วย Gradio จะเริ่มต้นขึ้น

ระบบปฏิบัติการ macOS

ดูบทช่วยสอนเกี่ยวกับการติดตั้ง SadTalker บน macOS ได้ที่นี่

นักเทียบท่า, WSL ฯลฯ

โปรดตรวจสอบบทช่วยสอนเพิ่มเติมที่นี่

2. ดาวน์โหลดโมเดล

คุณสามารถเรียกใช้สคริปต์ต่อไปนี้บน Linux/macOS เพื่อดาวน์โหลดโมเดลทั้งหมดโดยอัตโนมัติ:

bash scripts/download_models.sh

นอกจากนี้เรายังมีแพตช์ออฟไลน์ ( gfpgan/ ) อีกด้วย ดังนั้นจึงไม่มีการดาวน์โหลดโมเดลใดๆ เมื่อสร้าง

โมเดลที่ได้รับการฝึกอบรมล่วงหน้า

Google ไดรฟ์
การเผยแพร่ GitHub
ไป่ตู้ (百度云盘) (รหัสผ่าน: sadt )

GFPGAN แพทช์ออฟไลน์

Google ไดรฟ์
การเผยแพร่ GitHub
ไป่ตู้ (百度云盘) (รหัสผ่าน: sadt )

รายละเอียดรุ่น

โมเดลอธิบายว่า:

เวอร์ชั่นใหม่

แบบอย่าง	คำอธิบาย
จุดตรวจ/mapping_00229-model.pth.tar	MappingNet ที่ได้รับการฝึกอบรมล่วงหน้าใน Sadtalker
จุดตรวจ/mapping_00109-model.pth.tar	MappingNet ที่ได้รับการฝึกอบรมล่วงหน้าใน Sadtalker
จุดตรวจ/SadTalker_V0.0.2_256.safetensors	จุดตรวจ sadtalker ที่บรรจุไว้ของเวอร์ชันเก่า, การเรนเดอร์ใบหน้า 256 ครั้ง)
จุดตรวจ/SadTalker_V0.0.2_512.safetensors	จุดตรวจ sadtalker ที่บรรจุไว้ของเวอร์ชันเก่า, การเรนเดอร์ใบหน้า 512 ครั้ง)
gfpgan/ตุ้มน้ำหนัก	การตรวจจับใบหน้าและโมเดลที่ได้รับการปรับปรุงที่ใช้ใน `facexlib` และ `gfpgan`

รุ่นเก่า

แบบอย่าง	คำอธิบาย
จุดตรวจ/auido2exp_00300-model.pth	ExpNet ที่ได้รับการฝึกอบรมล่วงหน้าใน Sadtalker
จุดตรวจ/auido2pose_00140-model.pth	PoseVAE ที่ผ่านการฝึกอบรมล่วงหน้าใน Sadtalker
จุดตรวจ/mapping_00229-model.pth.tar	MappingNet ที่ได้รับการฝึกอบรมล่วงหน้าใน Sadtalker
จุดตรวจ/mapping_00109-model.pth.tar	MappingNet ที่ได้รับการฝึกอบรมล่วงหน้าใน Sadtalker
จุดตรวจ/facevid2vid_00189-model.pth.tar	โมเดล face-vid2vid ที่ผ่านการฝึกอบรมมาแล้วจากการปรากฏตัวอีกครั้งของ face-vid2vid
จุดตรวจ/epoch_20.pth	เครื่องแยก 3DMM ที่ได้รับการฝึกอบรมล่วงหน้าใน Deep3DFaceRestructor
จุดตรวจ/wav2lip.pth	โมเดลลิปซิงค์ที่มีความแม่นยำสูงใน Wav2lip
จุดตรวจ/shape_predictor_68_face_landmarks.dat	โมเดลจุดสังเกตใบหน้าที่ใช้ใน dilb
ด่าน/BFM	ไฟล์ไลบรารี 3DMM
จุดตรวจ/ศูนย์กลาง	โมเดลการตรวจจับใบหน้าที่ใช้ในการจัดตำแหน่งใบหน้า
gfpgan/ตุ้มน้ำหนัก	การตรวจจับใบหน้าและโมเดลที่ได้รับการปรับปรุงที่ใช้ใน `facexlib` และ `gfpgan`

โฟลเดอร์สุดท้ายจะแสดงเป็น:

3. เริ่มต้นอย่างรวดเร็ว

โปรดอ่านเอกสารของเราเกี่ยวกับแนวทางปฏิบัติที่ดีที่สุดและเคล็ดลับในการกำหนดค่า

การสาธิต WebUI

การสาธิตออนไลน์ : HuggingFace | SDWebUI-Colab | โคลาบ

ส่วนขยาย WebUI ท้องถิ่น : โปรดดูเอกสาร WebUI

การสาธิต gradio ในเครื่อง (แนะนำ) : อินสแตนซ์ Gradio ที่คล้ายกับการสาธิต Hugging Face ของเราสามารถเรียกใช้ในเครื่องได้:

 # # you need manually install TTS(https://github.com/coqui-ai/TTS) via `pip install tts` in advanced.
python app_sadtalker.py

คุณสามารถเริ่มต้นได้ง่ายขึ้น:

windows: เพียงดับเบิลคลิก webui.bat ข้อกำหนดจะถูกติดตั้งโดยอัตโนมัติ
Linux/Mac OS: รัน bash webui.sh เพื่อเริ่ม webui

การใช้งาน CLI

การสร้างภาพเคลื่อนไหวแนวตั้งจากการกำหนดค่าเริ่มต้น:

python inference.py --driven_audio < audio.wav > 
                    --source_image < video.mp4 or picture.png > 
                    --enhancer gfpgan

ผลลัพธ์จะถูกบันทึกไว้ใน results/$SOME_TIMESTAMP/*.mp4

การสร้างเนื้อหาเต็ม/ภาพ:

การใช้ --still เพื่อสร้างวิดีโอแบบเต็มตัวที่เป็นธรรมชาติ คุณสามารถเพิ่ม enhancer เพื่อปรับปรุงคุณภาพของวิดีโอที่สร้างขึ้นได้

python inference.py --driven_audio < audio.wav > 
                    --source_image < video.mp4 or picture.png > 
                    --result_dir < a file to store results > 
                    --still 
                    --preprocess full 
                    --enhancer gfpgan

ตัวอย่าง การกำหนดค่า และเคล็ดลับเพิ่มเติมสามารถพบได้ใน >>> เอกสารแนวปฏิบัติที่ดีที่สุด <<<

การอ้างอิง

หากคุณพบว่างานของเรามีประโยชน์ในการวิจัยของคุณ โปรดพิจารณาการอ้างอิง:

 @article { zhang2022sadtalker ,
  title = { SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation } ,
  author = { Zhang, Wenxuan and Cun, Xiaodong and Wang, Xuan and Zhang, Yong and Shen, Xi and Guo, Yu and Shan, Ying and Wang, Fei } ,
  journal = { arXiv preprint arXiv:2211.12194 } ,
  year = { 2022 }
}

รับทราบ

รหัส Facerender ยืมมาจากการสร้าง face-vid2vid และ PIRender ของ zhanglonghao อย่างมาก เราขอขอบคุณผู้เขียนสำหรับการแบ่งปันรหัสที่ยอดเยี่ยมของพวกเขา ในกระบวนการฝึกอบรม เรายังใช้โมเดลจาก Deep3DFaceRestruction และ Wav2lip เราขอขอบคุณสำหรับการทำงานที่ยอดเยี่ยมของพวกเขา

เรายังใช้ไลบรารีบุคคลที่สามต่อไปนี้:

การใช้งาน Face : https://github.com/xinntao/facexlib
การปรับปรุงใบหน้า : https://github.com/TencentARC/GFPGAN
การเพิ่มประสิทธิภาพภาพ/วิดีโอ :https://github.com/xinntao/Real-ESRGAN

ส่วนขยาย:

SadTalker-Video-Lip-Sync จาก @Zz-ww: SadTalker สำหรับการแก้ไขริมฝีปากวิดีโอ

ผลงานที่เกี่ยวข้อง

StyleHEAT: การสร้างใบหน้าพูดคุยที่แก้ไขได้ความละเอียดสูงด้วยช็อตเดียวผ่าน StyleGAN ที่ผ่านการฝึกอบรมมาแล้ว (ECCV 2022)
CodeTalker: แอนิเมชั่นใบหน้า 3 มิติที่ขับเคลื่อนด้วยคำพูดพร้อม Discrete Motion Prior (CVPR 2023)
VideoReTalking: การซิงโครไนซ์ริมฝีปากด้วยเสียงสำหรับการตัดต่อวิดีโอ Talking Head ในป่า (SIGGRAPH Asia 2022)
DPE: การแยกท่าทางและการแสดงออกสำหรับการแก้ไขภาพบุคคลในวิดีโอทั่วไป (CVPR 2023)
3D GAN Inversion พร้อม Facial Symmetry Prior (CVPR 2023)
T2M-GPT: การสร้างการเคลื่อนไหวของมนุษย์จากคำอธิบายที่เป็นข้อความพร้อมการนำเสนอแบบไม่ต่อเนื่อง (CVPR 2023)

ข้อสงวนสิทธิ์

นี่ไม่ใช่ผลิตภัณฑ์อย่างเป็นทางการของ Tencent

 1. Please carefully read and comply with the open-source license applicable to this code before using it. 
2. Please carefully read and comply with the intellectual property declaration applicable to this code before using it.
3. This open-source code runs completely offline and does not collect any personal information or other data. If you use this code to provide services to end-users and collect related data, please take necessary compliance measures according to applicable laws and regulations (such as publishing privacy policies, adopting necessary data security strategies, etc.). If the collected data involves personal information, user consent must be obtained (if applicable). Any legal liabilities arising from this are unrelated to Tencent.
4. Without Tencent's written permission, you are not authorized to use the names or logos legally owned by Tencent, such as "Tencent." Otherwise, you may be liable for legal responsibilities.
5. This open-source code does not have the ability to directly provide services to end-users. If you need to use this code for further model training or demos, as part of your product to provide services to end-users, or for similar use, please comply with applicable laws and regulations for your product or service. Any legal liabilities arising from this are unrelated to Tencent.
6. It is prohibited to use this open-source code for activities that harm the legitimate rights and interests of others (including but not limited to fraud, deception, infringement of others' portrait rights, reputation rights, etc.), or other behaviors that violate applicable laws and regulations or go against social ethics and good customs (including providing incorrect or false information, spreading pornographic, terrorist, and violent information, etc.). Otherwise, you may be liable for legal responsibilities.

LOGO: สีและแบบอักษรที่แนะนำ: ChatGPT, แบบอักษรของโลโก้: Montserrat Alternates

ลิขสิทธิ์ทั้งหมดของภาพสาธิตและเสียงนั้นมาจากผู้ใช้ในชุมชนหรือรุ่นจากการแพร่กระจายที่เสถียร โปรดติดต่อเราหากคุณต้องการใช้เพื่อลบออก

ขยาย

ข้อมูลเพิ่มเติม