TL;DR: gambar potret tunggal ?♂️ + audio ? = video kepala berbicara?.
Lisensi telah diperbarui ke Apache 2.0, dan kami telah menghapus batasan non-komersial
SadTalker kini telah resmi terintegrasi ke dalam Discord, di mana Anda dapat menggunakannya secara gratis dengan mengirimkan file. Anda juga dapat menghasilkan video berkualitas tinggi dari perintah teks. Bergabung:
Kami telah menerbitkan ekstensi webui difusi stabil. Lihat detail selengkapnya di sini. Video Demo
Mode gambar penuh sekarang tersedia! Lebih detailnya...
masih+peningkat di v0.0.1 | masih + penambah di v0.0.2 | masukan gambar @bagbag1815 |
---|---|---|
masih_e_n.mp4 | full_body_2.bus_chinese_enhanced.mp4 |
Beberapa mode baru (mode Still, reference, dan resize) kini tersedia!
Kami senang melihat lebih banyak demo komunitas di bilibili, YouTube, dan X (#sadtalker).
Changelog sebelumnya dapat ditemukan di sini.
[2023.06.12] : Menambahkan lebih banyak fitur baru di ekstensi WebUI, lihat pembahasannya di sini.
[2023.06.05] : Merilis model wajah baru berukuran 512x512px (beta). Memperbaiki beberapa bug dan meningkatkan kinerja.
[2023.04.15] : Menambahkan notebook WebUI Colab oleh @camenduru:
[2023.04.12] : Menambahkan dokumen instalasi WebUI yang lebih detail dan memperbaiki masalah saat menginstal ulang.
[2023.04.12] : Memperbaiki masalah keamanan WebUI karena paket pihak ketiga, dan mengoptimalkan jalur keluaran di sd-webui-extension
.
[2023.04.08] : Di v0.0.2, kami menambahkan tanda air logo ke video yang dibuat untuk mencegah penyalahgunaan. Tanda air ini telah dihapus pada rilis selanjutnya.
[2023.04.08] : Di v0.0.2, kami menambahkan fitur untuk animasi gambar lengkap dan tautan untuk mengunduh pos pemeriksaan dari Baidu. Kami juga mengoptimalkan logika penambah.
Kami sedang melacak pembaruan baru di edisi #280.
Jika Anda mengalami masalah, silakan baca FAQ kami sebelum membuka terbitan.
Tutorial komunitas: 中文Windows教程 (Tutorial Windows Cina) | 日本語コース (tutorial bahasa Jepang).
Instal Anaconda, Python dan git
.
Membuat env dan menginstal persyaratan.
git clone https://github.com/OpenTalker/SadTalker.git
cd SadTalker
conda create -n sadtalker python=3.8
conda activate sadtalker
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt
# ## Coqui TTS is optional for gradio demo.
# ## pip install TTS
Video tutorial dalam bahasa Mandarin tersedia di sini. Anda juga dapat mengikuti petunjuk berikut:
scoop install git
.ffmpeg
, ikuti tutorial ini atau gunakan scoop: scoop install ffmpeg
.git clone https://github.com/Winfredy/SadTalker.git
.start.bat
dari Windows Explorer seperti biasa, non-administrator, pengguna, dan demo WebUI yang didukung Gradio akan dimulai.Tutorial menginstal SadTalker di macOS dapat ditemukan di sini.
Silakan lihat tutorial tambahan di sini.
Anda dapat menjalankan skrip berikut di Linux/macOS untuk mengunduh semua model secara otomatis:
bash scripts/download_models.sh
Kami juga menyediakan patch offline ( gfpgan/
), jadi tidak ada model yang akan diunduh saat pembuatan.
sadt
)sadt
)Model menjelaskan:
Model | Keterangan |
---|---|
pos pemeriksaan/mapping_00229-model.pth.tar | MappingNet terlatih di Sadtalker. |
pos pemeriksaan/mapping_00109-model.pth.tar | MappingNet terlatih di Sadtalker. |
pos pemeriksaan/SadTalker_V0.0.2_256.safetensors | paket pos pemeriksaan sadtalker versi lama, 256 render wajah). |
pos pemeriksaan/SadTalker_V0.0.2_512.safetensors | paket pos pemeriksaan sadtalker versi lama, 512 render wajah). |
gfpgan/bobot | Deteksi wajah dan model yang disempurnakan digunakan di facexlib dan gfpgan . |
Model | Keterangan |
---|---|
pos pemeriksaan/auido2exp_00300-model.pth | ExpNet terlatih di Sadtalker. |
pos pemeriksaan/auido2pose_00140-model.pth | PoseVAE terlatih di Sadtalker. |
pos pemeriksaan/mapping_00229-model.pth.tar | MappingNet terlatih di Sadtalker. |
pos pemeriksaan/mapping_00109-model.pth.tar | MappingNet terlatih di Sadtalker. |
pos pemeriksaan/facevid2vid_00189-model.pth.tar | Model face-vid2vid yang telah dilatih sebelumnya dari kemunculan kembali face-vid2vid. |
pos pemeriksaan/epoch_20.pth | Ekstraktor 3DMM terlatih dalam Deep3DFaceReconstruction. |
pos pemeriksaan/wav2lip.pth | Model sinkronisasi bibir yang sangat akurat di Wav2lip. |
pos pemeriksaan/shape_predictor_68_face_landmarks.dat | Model landmark wajah yang digunakan dalam dilb. |
pos pemeriksaan/BFM | File perpustakaan 3DMM. |
pos pemeriksaan/pusat | Model deteksi wajah yang digunakan dalam penyelarasan wajah. |
gfpgan/bobot | Deteksi wajah dan model yang disempurnakan digunakan di facexlib dan gfpgan . |
Folder terakhir akan ditampilkan sebagai:
Silakan baca dokumen kami tentang praktik terbaik dan tip konfigurasi
Demo Daring : HuggingFace | SDWebUI-Colab | Kolaborasi
Ekstensi WebUI lokal : Silakan lihat dokumen WebUI.
Demo gradio lokal (disarankan) : Contoh Gradio yang mirip dengan demo Hugging Face kami dapat dijalankan secara lokal:
# # you need manually install TTS(https://github.com/coqui-ai/TTS) via `pip install tts` in advanced.
python app_sadtalker.py
Anda juga dapat memulainya dengan lebih mudah:
webui.bat
, persyaratan akan diinstal secara otomatis.bash webui.sh
untuk memulai webui.python inference.py --driven_audio < audio.wav >
--source_image < video.mp4 or picture.png >
--enhancer gfpgan
Hasilnya akan disimpan di results/$SOME_TIMESTAMP/*.mp4
.
Menggunakan --still
untuk menghasilkan video seluruh tubuh yang alami. Anda dapat menambahkan enhancer
untuk meningkatkan kualitas video yang dihasilkan.
python inference.py --driven_audio < audio.wav >
--source_image < video.mp4 or picture.png >
--result_dir < a file to store results >
--still
--preprocess full
--enhancer gfpgan
Contoh, konfigurasi, dan tip lainnya dapat ditemukan di >>> dokumen praktik terbaik <<<.
Jika Anda merasa karya kami bermanfaat dalam penelitian Anda, mohon pertimbangkan untuk mengutip:
@article { zhang2022sadtalker ,
title = { SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation } ,
author = { Zhang, Wenxuan and Cun, Xiaodong and Wang, Xuan and Zhang, Yong and Shen, Xi and Guo, Yu and Shan, Ying and Wang, Fei } ,
journal = { arXiv preprint arXiv:2211.12194 } ,
year = { 2022 }
}
Kode facerender banyak meminjam dari reproduksi face-vid2vid dan PIRender zhanglonghao. Kami berterima kasih kepada penulis karena telah membagikan kode luar biasa mereka. Dalam proses pelatihan, kami juga menggunakan model dari Deep3DFaceReconstruction dan Wav2lip. Kami berterima kasih atas kerja luar biasa mereka.
Kami juga menggunakan perpustakaan pihak ketiga berikut:
Ini bukan produk resmi Tencent.
1. Please carefully read and comply with the open-source license applicable to this code before using it.
2. Please carefully read and comply with the intellectual property declaration applicable to this code before using it.
3. This open-source code runs completely offline and does not collect any personal information or other data. If you use this code to provide services to end-users and collect related data, please take necessary compliance measures according to applicable laws and regulations (such as publishing privacy policies, adopting necessary data security strategies, etc.). If the collected data involves personal information, user consent must be obtained (if applicable). Any legal liabilities arising from this are unrelated to Tencent.
4. Without Tencent's written permission, you are not authorized to use the names or logos legally owned by Tencent, such as "Tencent." Otherwise, you may be liable for legal responsibilities.
5. This open-source code does not have the ability to directly provide services to end-users. If you need to use this code for further model training or demos, as part of your product to provide services to end-users, or for similar use, please comply with applicable laws and regulations for your product or service. Any legal liabilities arising from this are unrelated to Tencent.
6. It is prohibited to use this open-source code for activities that harm the legitimate rights and interests of others (including but not limited to fraud, deception, infringement of others' portrait rights, reputation rights, etc.), or other behaviors that violate applicable laws and regulations or go against social ethics and good customs (including providing incorrect or false information, spreading pornographic, terrorist, and violent information, etc.). Otherwise, you may be liable for legal responsibilities.
LOGO: saran warna dan font: ChatGPT, font logo: Montserrat Alternate .
Semua hak cipta atas gambar demo dan audio berasal dari pengguna komunitas atau generasi dari difusi stabil. Jangan ragu untuk menghubungi kami jika Anda ingin menggunakannya untuk menghapusnya.