Unduhan SadTalker - Unduhan kode sumber SadTalker

SadTalker

Kode sumber lainnya

v0.0.2 rc Release Note

Unduh

Wenxuan Zhang ^*,1,2 Xiaodong Cun ^*,2 Xuan Wang ³ Yong Zhang ² Xi Shen ²
Yu Guo ¹ Ying Shan ² Fei Wang ¹

¹ Universitas Xi'an Jiaotong ² Tencent AI Lab ³ Grup Semut

CVPR 2023

pembicara sadis

TL;DR: gambar potret tunggal ?‍♂️ + audio ? = video kepala berbicara?.

Highlight

Lisensi telah diperbarui ke Apache 2.0, dan kami telah menghapus batasan non-komersial
SadTalker kini telah resmi terintegrasi ke dalam Discord, di mana Anda dapat menggunakannya secara gratis dengan mengirimkan file. Anda juga dapat menghasilkan video berkualitas tinggi dari perintah teks. Bergabung:
Kami telah menerbitkan ekstensi webui difusi stabil. Lihat detail selengkapnya di sini. Video Demo
Mode gambar penuh sekarang tersedia! Lebih detailnya...

masih+peningkat di v0.0.1	masih + penambah di v0.0.2	masukan gambar @bagbag1815
masih_e_n.mp4	full_body_2.bus_chinese_enhanced.mp4

Beberapa mode baru (mode Still, reference, dan resize) kini tersedia!
Kami senang melihat lebih banyak demo komunitas di bilibili, YouTube, dan X (#sadtalker).

log perubahan

Changelog sebelumnya dapat ditemukan di sini.

[2023.06.12] : Menambahkan lebih banyak fitur baru di ekstensi WebUI, lihat pembahasannya di sini.
[2023.06.05] : Merilis model wajah baru berukuran 512x512px (beta). Memperbaiki beberapa bug dan meningkatkan kinerja.
[2023.04.15] : Menambahkan notebook WebUI Colab oleh @camenduru:
[2023.04.12] : Menambahkan dokumen instalasi WebUI yang lebih detail dan memperbaiki masalah saat menginstal ulang.
[2023.04.12] : Memperbaiki masalah keamanan WebUI karena paket pihak ketiga, dan mengoptimalkan jalur keluaran di sd-webui-extension .
[2023.04.08] : Di v0.0.2, kami menambahkan tanda air logo ke video yang dibuat untuk mencegah penyalahgunaan. Tanda air ini telah dihapus pada rilis selanjutnya.
[2023.04.08] : Di v0.0.2, kami menambahkan fitur untuk animasi gambar lengkap dan tautan untuk mengunduh pos pemeriksaan dari Baidu. Kami juga mengoptimalkan logika penambah.

Agenda

Kami sedang melacak pembaruan baru di edisi #280.

Pemecahan masalah

Jika Anda mengalami masalah, silakan baca FAQ kami sebelum membuka terbitan.

1. Instalasi.

Tutorial komunitas: 中文Windows教程 (Tutorial Windows Cina) | 日本語コース (tutorial bahasa Jepang).

Linux/Unix

Instal Anaconda, Python dan git .
Membuat env dan menginstal persyaratan.

git clone https://github.com/OpenTalker/SadTalker.git

cd SadTalker 

conda create -n sadtalker python=3.8

conda activate sadtalker

pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113

conda install ffmpeg

pip install -r requirements.txt

# ## Coqui TTS is optional for gradio demo. 
# ## pip install TTS

jendela

Video tutorial dalam bahasa Mandarin tersedia di sini. Anda juga dapat mengikuti petunjuk berikut:

Instal Python 3.8 dan centang "Tambahkan Python ke PATH".
Instal git secara manual atau menggunakan Scoop: scoop install git .
Instal ffmpeg , ikuti tutorial ini atau gunakan scoop: scoop install ffmpeg .
Unduh repositori SadTalker dengan menjalankan git clone https://github.com/Winfredy/SadTalker.git .
Unduh model pos pemeriksaan dan gfpgan di bagian unduhan.
Jalankan start.bat dari Windows Explorer seperti biasa, non-administrator, pengguna, dan demo WebUI yang didukung Gradio akan dimulai.

macOS

Tutorial menginstal SadTalker di macOS dapat ditemukan di sini.

buruh pelabuhan, WSL, dll

Silakan lihat tutorial tambahan di sini.

2. Unduh Model

Anda dapat menjalankan skrip berikut di Linux/macOS untuk mengunduh semua model secara otomatis:

bash scripts/download_models.sh

Kami juga menyediakan patch offline ( gfpgan/ ), jadi tidak ada model yang akan diunduh saat pembuatan.

Model Terlatih

Google Drive
Rilis GitHub
Baidu (百度云盘) (Kata sandi: sadt )

Patch Offline GFPGAN

Google Drive
Rilis GitHub
Baidu (百度云盘) (Kata sandi: sadt )

Detail Model

Model menjelaskan:

Versi baru

Model	Keterangan
pos pemeriksaan/mapping_00229-model.pth.tar	MappingNet terlatih di Sadtalker.
pos pemeriksaan/mapping_00109-model.pth.tar	MappingNet terlatih di Sadtalker.
pos pemeriksaan/SadTalker_V0.0.2_256.safetensors	paket pos pemeriksaan sadtalker versi lama, 256 render wajah).
pos pemeriksaan/SadTalker_V0.0.2_512.safetensors	paket pos pemeriksaan sadtalker versi lama, 512 render wajah).
gfpgan/bobot	Deteksi wajah dan model yang disempurnakan digunakan di `facexlib` dan `gfpgan` .

Versi lama

Model	Keterangan
pos pemeriksaan/auido2exp_00300-model.pth	ExpNet terlatih di Sadtalker.
pos pemeriksaan/auido2pose_00140-model.pth	PoseVAE terlatih di Sadtalker.
pos pemeriksaan/mapping_00229-model.pth.tar	MappingNet terlatih di Sadtalker.
pos pemeriksaan/mapping_00109-model.pth.tar	MappingNet terlatih di Sadtalker.
pos pemeriksaan/facevid2vid_00189-model.pth.tar	Model face-vid2vid yang telah dilatih sebelumnya dari kemunculan kembali face-vid2vid.
pos pemeriksaan/epoch_20.pth	Ekstraktor 3DMM terlatih dalam Deep3DFaceReconstruction.
pos pemeriksaan/wav2lip.pth	Model sinkronisasi bibir yang sangat akurat di Wav2lip.
pos pemeriksaan/shape_predictor_68_face_landmarks.dat	Model landmark wajah yang digunakan dalam dilb.
pos pemeriksaan/BFM	File perpustakaan 3DMM.
pos pemeriksaan/pusat	Model deteksi wajah yang digunakan dalam penyelarasan wajah.
gfpgan/bobot	Deteksi wajah dan model yang disempurnakan digunakan di `facexlib` dan `gfpgan` .

Folder terakhir akan ditampilkan sebagai:

3. Mulai Cepat

Silakan baca dokumen kami tentang praktik terbaik dan tip konfigurasi

Demo WebUI

Demo Daring : HuggingFace | SDWebUI-Colab | Kolaborasi

Ekstensi WebUI lokal : Silakan lihat dokumen WebUI.

Demo gradio lokal (disarankan) : Contoh Gradio yang mirip dengan demo Hugging Face kami dapat dijalankan secara lokal:

 # # you need manually install TTS(https://github.com/coqui-ai/TTS) via `pip install tts` in advanced.
python app_sadtalker.py

Anda juga dapat memulainya dengan lebih mudah:

windows: cukup klik dua kali webui.bat , persyaratan akan diinstal secara otomatis.
Linux/Mac OS: jalankan bash webui.sh untuk memulai webui.

penggunaan CLI

Menganimasikan gambar potret dari konfigurasi default:

python inference.py --driven_audio < audio.wav > 
                    --source_image < video.mp4 or picture.png > 
                    --enhancer gfpgan

Hasilnya akan disimpan di results/$SOME_TIMESTAMP/*.mp4 .

Pembuatan seluruh tubuh/gambar:

Menggunakan --still untuk menghasilkan video seluruh tubuh yang alami. Anda dapat menambahkan enhancer untuk meningkatkan kualitas video yang dihasilkan.

python inference.py --driven_audio < audio.wav > 
                    --source_image < video.mp4 or picture.png > 
                    --result_dir < a file to store results > 
                    --still 
                    --preprocess full 
                    --enhancer gfpgan

Contoh, konfigurasi, dan tip lainnya dapat ditemukan di >>> dokumen praktik terbaik <<<.

Kutipan

Jika Anda merasa karya kami bermanfaat dalam penelitian Anda, mohon pertimbangkan untuk mengutip:

 @article { zhang2022sadtalker ,
  title = { SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation } ,
  author = { Zhang, Wenxuan and Cun, Xiaodong and Wang, Xuan and Zhang, Yong and Shen, Xi and Guo, Yu and Shan, Ying and Wang, Fei } ,
  journal = { arXiv preprint arXiv:2211.12194 } ,
  year = { 2022 }
}

Ucapan Terima Kasih

Kode facerender banyak meminjam dari reproduksi face-vid2vid dan PIRender zhanglonghao. Kami berterima kasih kepada penulis karena telah membagikan kode luar biasa mereka. Dalam proses pelatihan, kami juga menggunakan model dari Deep3DFaceReconstruction dan Wav2lip. Kami berterima kasih atas kerja luar biasa mereka.

Kami juga menggunakan perpustakaan pihak ketiga berikut:

Utilitas Wajah : https://github.com/xinntao/facexlib
Peningkatan Wajah : https://github.com/TencentARC/GFPGAN
Peningkatan Gambar/Video :https://github.com/xinntao/Real-ESRGAN

Ekstensi:

SadTalker-Video-Lip-Sync dari @ Zz-ww: SadTalker untuk Pengeditan Bibir Video

Pekerjaan Terkait

StyleHEAT: Pembuatan Wajah Berbicara dengan Resolusi Tinggi Sekali Pemotretan yang Dapat Diedit melalui StyleGAN yang telah dilatih sebelumnya (ECCV 2022)
CodeTalker: Animasi Wajah 3D Berbasis Ucapan dengan Gerakan Diskrit Sebelumnya (CVPR 2023)
VideoReTalking: Sinkronisasi Bibir Berbasis Audio untuk Pengeditan Video Talking Head Di Alam Liar (SIGGRAPH Asia 2022)
DPE: Penguraian Pose dan Ekspresi untuk Pengeditan Potret Video Secara Umum (CVPR 2023)
Inversi GAN 3D dengan Prior Simetri Wajah (CVPR 2023)
T2M-GPT: Membangkitkan Gerak Manusia dari Deskripsi Tekstual dengan Representasi Diskrit (CVPR 2023)

Penafian

Ini bukan produk resmi Tencent.

 1. Please carefully read and comply with the open-source license applicable to this code before using it. 
2. Please carefully read and comply with the intellectual property declaration applicable to this code before using it.
3. This open-source code runs completely offline and does not collect any personal information or other data. If you use this code to provide services to end-users and collect related data, please take necessary compliance measures according to applicable laws and regulations (such as publishing privacy policies, adopting necessary data security strategies, etc.). If the collected data involves personal information, user consent must be obtained (if applicable). Any legal liabilities arising from this are unrelated to Tencent.
4. Without Tencent's written permission, you are not authorized to use the names or logos legally owned by Tencent, such as "Tencent." Otherwise, you may be liable for legal responsibilities.
5. This open-source code does not have the ability to directly provide services to end-users. If you need to use this code for further model training or demos, as part of your product to provide services to end-users, or for similar use, please comply with applicable laws and regulations for your product or service. Any legal liabilities arising from this are unrelated to Tencent.
6. It is prohibited to use this open-source code for activities that harm the legitimate rights and interests of others (including but not limited to fraud, deception, infringement of others' portrait rights, reputation rights, etc.), or other behaviors that violate applicable laws and regulations or go against social ethics and good customs (including providing incorrect or false information, spreading pornographic, terrorist, and violent information, etc.). Otherwise, you may be liable for legal responsibilities.

LOGO: saran warna dan font: ChatGPT, font logo: Montserrat Alternate .

Semua hak cipta atas gambar demo dan audio berasal dari pengguna komunitas atau generasi dari difusi stabil. Jangan ragu untuk menghubungi kami jika Anda ingin menggunakannya untuk menghapusnya.

Memperluas

Informasi Tambahan

Versi v0.0.2 rc Release Note
Tipe Kode sumber lainnya
Waktu Pembaruan 2024-12-05
ukuran 50MB
Berasal dari Github

Aplikasi Terkait

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
SmartTube

Kode sumber lainnya

24.71 Stable
Sunamu

Kode sumber lainnya

Release 2.2.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
wp functions

Kategori lainnya

1.0.0
termwind

Kategori lainnya

v2.3.0

Informasi Terkait Semua