Téléchargement SadTalker - Téléchargement du code source SadTalker

SadTalker

Autre code source

v0.0.2 rc Release Note

Télécharger

Wenxuan Zhang ^*,1,2 Xiaodong Cun ^*,2 Xuan Wang ³ Yong Zhang ² Xi Shen ²
Yu Guo ¹ Ying Shan ² Fei Wang ¹

¹ Université Jiaotong de Xi'an ² Laboratoire d'IA de Tencent ³ Groupe Ant

CVPR 2023

triste parleur

TL;DR : image portrait unique ?‍♂️ + audio ? = vidéo tête parlante ?.

Points forts

La licence a été mise à jour vers Apache 2.0 et nous avons supprimé la restriction non commerciale
SadTalker est désormais officiellement intégré à Discord, où vous pouvez l'utiliser gratuitement en envoyant des fichiers. Vous pouvez également générer des vidéos de haute qualité à partir d'invites textuelles. Rejoindre:
Nous avons publié une extension stable-diffusion-webui. Découvrez plus de détails ici. Vidéo de démonstration
Le mode image complète est désormais disponible ! Plus de détails...

toujours + rehausseur dans la v0.0.1	toujours + rehausseur dans la v0.0.2	image d'entrée @ bagbag1815
still_e_n.mp4	full_body_2.bus_chinese_enhanced.mp4

Plusieurs nouveaux modes (modes Image fixe, référence et redimensionnement) sont désormais disponibles !
Nous sommes heureux de voir plus de démos communautaires sur bilibili, YouTube et X (#sadtalker).

Journal des modifications

Le journal des modifications précédent peut être trouvé ici.

[2023.06.12] : Ajout de nouvelles fonctionnalités dans l'extension WebUI, voir la discussion ici.
[2023.06.05] : Sortie d'un nouveau modèle de visage 512x512px (bêta). Correction de quelques bugs et amélioration des performances.
[2023.04.15] : Ajout d'un notebook WebUI Colab par @camenduru :
[2023.04.12] : Ajout d'un document d'installation WebUI plus détaillé et correction d'un problème lors de la réinstallation.
[2023.04.12] : Correction des problèmes de sécurité WebUI dus à des packages tiers et optimisation du chemin de sortie dans sd-webui-extension .
[2023.04.08] : Dans la v0.0.2, nous avons ajouté un logo en filigrane à la vidéo générée pour éviter les abus. Ce filigrane a depuis été supprimé dans une version ultérieure.
[2023.04.08] : Dans la v0.0.2, nous avons ajouté des fonctionnalités pour l'animation d'images complètes et un lien pour télécharger les points de contrôle depuis Baidu. Nous avons également optimisé la logique de l'enhancer.

Faire

Nous suivons les nouvelles mises à jour dans le numéro 280.

Dépannage

Si vous rencontrez des problèmes, veuillez lire notre FAQ avant d'ouvrir un problème.

1.Installation.

Tutoriels de la communauté : 中文Windows教程 (tutoriel Windows en chinois) | 日本語コース (tutoriel japonais).

Linux/Unix

Installez Anaconda, Python et git .
Créer l'environnement et installer les exigences.

git clone https://github.com/OpenTalker/SadTalker.git

cd SadTalker 

conda create -n sadtalker python=3.8

conda activate sadtalker

pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113

conda install ffmpeg

pip install -r requirements.txt

# ## Coqui TTS is optional for gradio demo. 
# ## pip install TTS

Fenêtres

Un tutoriel vidéo en chinois est disponible ici. Vous pouvez également suivre les instructions suivantes :

Installez Python 3.8 et cochez "Ajouter Python au PATH".
Installez git manuellement ou à l'aide de Scoop : scoop install git .
Installez ffmpeg , en suivant ce tutoriel ou en utilisant scoop : scoop install ffmpeg .
Téléchargez le référentiel SadTalker en exécutant git clone https://github.com/Winfredy/SadTalker.git .
Téléchargez les points de contrôle et les modèles gfpgan dans la section téléchargements.
Exécutez start.bat à partir de l'Explorateur Windows comme d'habitude, non-administrateur, utilisateur et une démo WebUI basée sur Gradio sera lancée.

macOS

Un tutoriel sur l'installation de SadTalker sur macOS peut être trouvé ici.

Docker, WSL, etc.

Veuillez consulter des didacticiels supplémentaires ici.

2. Télécharger des modèles

Vous pouvez exécuter le script suivant sous Linux/macOS pour télécharger automatiquement tous les modèles :

bash scripts/download_models.sh

Nous fournissons également un patch hors ligne ( gfpgan/ ), donc aucun modèle ne sera téléchargé lors de la génération.

Modèles pré-entraînés

Google Drive
Versions de GitHub
Baidu (百度云盘) (Mot de passe : sadt )

Correctif hors ligne GFPGAN

Google Drive
Versions de GitHub
Baidu (百度云盘) (Mot de passe : sadt )

Détails du modèle

Le modèle explique :

Nouvelle version

Modèle	Description
points de contrôle/mapping_00229-model.pth.tar	MappingNet pré-entraîné dans Sadtalker.
points de contrôle/mapping_00109-model.pth.tar	MappingNet pré-entraîné dans Sadtalker.
points de contrôle/SadTalker_V0.0.2_256.safetensors	points de contrôle sadtalker packagés de l'ancienne version, rendu 256 visages).
points de contrôle/SadTalker_V0.0.2_512.safetensors	points de contrôle sadtalker packagés de l'ancienne version, rendu 512 visages).
gfpgan/poids	Détection de visage et modèles améliorés utilisés dans `facexlib` et `gfpgan` .

Ancienne version

Modèle	Description
points de contrôle/auido2exp_00300-model.pth	ExpNet pré-entraîné dans Sadtalker.
points de contrôle/auido2pose_00140-model.pth	PoseVAE pré-entraîné dans Sadtalker.
points de contrôle/mapping_00229-model.pth.tar	MappingNet pré-entraîné dans Sadtalker.
points de contrôle/mapping_00109-model.pth.tar	MappingNet pré-entraîné dans Sadtalker.
points de contrôle/facevid2vid_00189-model.pth.tar	Modèle face-vid2vid pré-entraîné issu de la réapparition de face-vid2vid.
points de contrôle/epoch_20.pth	Extracteur 3DMM pré-entraîné dans Deep3DFaceReconstruction.
points de contrôle/wav2lip.pth	Modèle de synchronisation labiale très précis dans Wav2lip.
points de contrôle/shape_predictor_68_face_landmarks.dat	Modèle de repère de visage utilisé dans Dilb.
points de contrôle/BFM	Fichier de bibliothèque 3DMM.
points de contrôle/hub	Modèles de détection de visage utilisés dans l'alignement du visage.
gfpgan/poids	Détection de visage et modèles améliorés utilisés dans `facexlib` et `gfpgan` .

Le dossier final sera affiché comme suit :

3. Démarrage rapide

Veuillez lire notre document sur les bonnes pratiques et les conseils de configuration

Démos WebUI

Démo en ligne : HuggingFace | SDWebUI-Colab | Colab

Extension WebUI locale : veuillez vous référer à la documentation WebUI.

Démo gradio locale (recommandée) : Une instance Gradio similaire à notre démo Hugging Face peut être exécutée localement :

 # # you need manually install TTS(https://github.com/coqui-ai/TTS) via `pip install tts` in advanced.
python app_sadtalker.py

Vous pouvez également le démarrer plus facilement :

windows : double-cliquez simplement sur webui.bat , les exigences seront installées automatiquement.
Linux/Mac OS : exécutez bash webui.sh pour démarrer le webui.

Utilisation de la CLI

Animer une image portrait à partir de la configuration par défaut :

python inference.py --driven_audio < audio.wav > 
                    --source_image < video.mp4 or picture.png > 
                    --enhancer gfpgan

Les résultats seront enregistrés dans results/$SOME_TIMESTAMP/*.mp4 .

Génération corps entier/image :

Utiliser --still pour générer une vidéo naturelle du corps entier. Vous pouvez ajouter enhancer pour améliorer la qualité de la vidéo générée.

python inference.py --driven_audio < audio.wav > 
                    --source_image < video.mp4 or picture.png > 
                    --result_dir < a file to store results > 
                    --still 
                    --preprocess full 
                    --enhancer gfpgan

D'autres exemples, configurations et conseils peuvent être trouvés dans les >>> documents de bonnes pratiques <<<.

Citation

Si vous trouvez notre travail utile dans votre recherche, pensez à citer :

 @article { zhang2022sadtalker ,
  title = { SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation } ,
  author = { Zhang, Wenxuan and Cun, Xiaodong and Wang, Xuan and Zhang, Yong and Shen, Xi and Guo, Yu and Shan, Ying and Wang, Fei } ,
  journal = { arXiv preprint arXiv:2211.12194 } ,
  year = { 2022 }
}

Remerciements

Le code de Facerender emprunte beaucoup à la reproduction de zhanglonghao de face-vid2vid et PIRender. Nous remercions les auteurs d'avoir partagé leur merveilleux code. Dans le processus de formation, nous avons également utilisé le modèle de Deep3DFaceReconstruction et Wav2lip. Nous remercions pour leur merveilleux travail.

Nous utilisons également les bibliothèques tierces suivantes :

Utilitaires Face : https://github.com/xinntao/facexlib
Amélioration du visage : https://github.com/TencentARC/GFPGAN
Amélioration de l'image/vidéo :https://github.com/xinntao/Real-ESRGAN

Prolongements :

SadTalker-Video-Lip-Sync de @Zz-ww : SadTalker pour le montage vidéo des lèvres

Travaux connexes

StyleHEAT : génération de visage parlant modifiable en haute résolution via StyleGAN pré-entraîné (ECCV 2022)
CodeTalker : animation faciale 3D basée sur la parole avec mouvement discret préalable (CVPR 2023)
VideoReTalking : synchronisation labiale basée sur l'audio pour le montage vidéo de têtes parlantes dans la nature (SIGGRAPH Asia 2022)
DPE : Démêlage de la pose et de l'expression pour le montage général de portraits vidéo (CVPR 2023)
Inversion GAN 3D avec symétrie faciale préalable (CVPR 2023)
T2M-GPT : Générer du mouvement humain à partir de descriptions textuelles avec des représentations discrètes (CVPR 2023)

Clause de non-responsabilité

Ce n'est pas un produit officiel de Tencent.

 1. Please carefully read and comply with the open-source license applicable to this code before using it. 
2. Please carefully read and comply with the intellectual property declaration applicable to this code before using it.
3. This open-source code runs completely offline and does not collect any personal information or other data. If you use this code to provide services to end-users and collect related data, please take necessary compliance measures according to applicable laws and regulations (such as publishing privacy policies, adopting necessary data security strategies, etc.). If the collected data involves personal information, user consent must be obtained (if applicable). Any legal liabilities arising from this are unrelated to Tencent.
4. Without Tencent's written permission, you are not authorized to use the names or logos legally owned by Tencent, such as "Tencent." Otherwise, you may be liable for legal responsibilities.
5. This open-source code does not have the ability to directly provide services to end-users. If you need to use this code for further model training or demos, as part of your product to provide services to end-users, or for similar use, please comply with applicable laws and regulations for your product or service. Any legal liabilities arising from this are unrelated to Tencent.
6. It is prohibited to use this open-source code for activities that harm the legitimate rights and interests of others (including but not limited to fraud, deception, infringement of others' portrait rights, reputation rights, etc.), or other behaviors that violate applicable laws and regulations or go against social ethics and good customs (including providing incorrect or false information, spreading pornographic, terrorist, and violent information, etc.). Otherwise, you may be liable for legal responsibilities.

LOGO : suggestion de couleur et de police : ChatGPT, police du logo : Montserrat Alternates.

Tous les droits d'auteur des images et de l'audio de démonstration proviennent d'utilisateurs de la communauté ou de la génération d'une diffusion stable. N'hésitez pas à nous contacter si vous souhaitez les supprimer.

Développer

Informations supplémentaires

Version v0.0.2 rc Release Note
Type Autre code source
Date de mise à jour 2024-12-05
taille 50MB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
wp functions

Autres catégories

1.0.0
termwind

Autres catégories

v2.3.0

Actualités connexes Tout