SadTalker Download – Download SadTalker -Quellcodes

SadTalker

Anderer Quellcode

v0.0.2 rc Release Note

Herunterladen

Wenxuan Zhang ^*,1,2 Xiaodong Cun ^*,2 Xuan Wang ³ Yong Zhang ² Xi Shen ²
Yu Guo ¹ Ying Shan ² Fei Wang ¹

¹ Xi'an Jiaotong University ² Tencent AI Lab ³ Ameisengruppe

CVPR 2023

trauriger Redner

TL;DR: einzelnes Porträtbild ?‍♂️ + Audio ? = Talking-Head-Video ?.

Höhepunkte

Die Lizenz wurde auf Apache 2.0 aktualisiert und wir haben die nichtkommerzielle Einschränkung entfernt
SadTalker wurde nun offiziell in Discord integriert, wo Sie es kostenlos durch das Senden von Dateien nutzen können. Sie können auch hochwertige Videos aus Textaufforderungen erstellen. Verbinden:
Wir haben eine Stable-Diffusion-Webui-Erweiterung veröffentlicht. Weitere Details finden Sie hier. Demo-Video
Der Vollbildmodus ist jetzt verfügbar! Weitere Details...

Still+Enhancer in v0.0.1	Still + Enhancer in v0.0.2	Eingabebild @bagbag1815
still_e_n.mp4	full_body_2.bus_chinese_enhanced.mp4

Mehrere neue Modi (Standbild-, Referenz- und Größenänderungsmodus) sind jetzt verfügbar!
Wir freuen uns, weitere Community-Demos auf bilibili, YouTube und X (#sadtalker) zu sehen.

Änderungsprotokoll

Das bisherige Changelog finden Sie hier.

[12.06.2023] : Weitere neue Funktionen in der WebUI-Erweiterung hinzugefügt, siehe Diskussion hier.
[05.06.2023] : Veröffentlichung eines neuen 512x512px (Beta)-Gesichtsmodells. Einige Fehler behoben und die Leistung verbessert.
[15.04.2023] : Ein WebUI Colab-Notizbuch von @camenduru hinzugefügt:
[12.04.2023] : Ein detaillierteres WebUI-Installationsdokument hinzugefügt und ein Problem bei der Neuinstallation behoben.
[12.04.2023] : Die WebUI-Sicherheitsprobleme aufgrund von Paketen von Drittanbietern wurden behoben und der Ausgabepfad in sd-webui-extension optimiert.
[08.04.2023] : In v0.0.2 haben wir dem generierten Video ein Logo-Wasserzeichen hinzugefügt, um Missbrauch zu verhindern. Dieses Wasserzeichen wurde inzwischen in einer späteren Version entfernt.
[08.04.2023] : In v0.0.2 haben wir Funktionen für die vollständige Bildanimation und einen Link zum Herunterladen von Checkpoints von Baidu hinzugefügt. Wir haben auch die Enhancer-Logik optimiert.

Zu erledigen

Wir verfolgen neue Updates in Ausgabe Nr. 280.

Fehlerbehebung

Wenn Sie Probleme haben, lesen Sie bitte unsere FAQs, bevor Sie ein Problem eröffnen.

1. Installation.

Community-Tutorials: 中文Windows教程 (Chinesisches Windows-Tutorial) | 日本語コース (Japanisches Tutorial).

Linux/Unix

Installieren Sie Anaconda, Python und git .
Erstellen Sie die Umgebung und installieren Sie die Anforderungen.

git clone https://github.com/OpenTalker/SadTalker.git

cd SadTalker 

conda create -n sadtalker python=3.8

conda activate sadtalker

pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113

conda install ffmpeg

pip install -r requirements.txt

# ## Coqui TTS is optional for gradio demo. 
# ## pip install TTS

Windows

Ein Video-Tutorial auf Chinesisch finden Sie hier. Sie können auch die folgenden Anweisungen befolgen:

Installieren Sie Python 3.8 und aktivieren Sie „Python zu PATH hinzufügen“.
Installieren Sie Git manuell oder mit Scoop: scoop install git .
Installieren Sie ffmpeg , indem Sie diesem Tutorial folgen oder scoop verwenden: scoop install ffmpeg .
Laden Sie das SadTalker-Repository herunter, indem Sie git clone https://github.com/Winfredy/SadTalker.git ausführen.
Laden Sie die Checkpoints und GFPGAN-Modelle im Download-Bereich herunter.
Führen Sie start.bat im Windows Explorer als normaler Benutzer ohne Administratorrechte aus und eine Gradio-basierte WebUI-Demo wird gestartet.

macOS

Eine Anleitung zur Installation von SadTalker unter macOS finden Sie hier.

Docker, WSL usw

Weitere Tutorials finden Sie hier.

2. Modelle herunterladen

Sie können das folgende Skript unter Linux/macOS ausführen, um alle Modelle automatisch herunterzuladen:

bash scripts/download_models.sh

Wir stellen auch einen Offline-Patch ( gfpgan/ ) zur Verfügung, sodass beim Generieren kein Modell heruntergeladen wird.

Vorgefertigte Modelle

Google Drive
GitHub-Veröffentlichungen
Baidu (百度云盘) (Passwort: sadt )

GFPGAN Offline-Patch

Google Drive
GitHub-Veröffentlichungen
Baidu (百度云盘) (Passwort: sadt )

Modelldetails

Modell erklärt:

Neue Version

Modell	Beschreibung
checkpoints/mapping_00229-model.pth.tar	Vorab trainiertes MappingNet in Sadtalker.
checkpoints/mapping_00109-model.pth.tar	Vorab trainiertes MappingNet in Sadtalker.
checkpoints/SadTalker_V0.0.2_256.safetensors	verpackte Sadtalker-Checkpoints der alten Version, 256-Face-Rendering).
checkpoints/SadTalker_V0.0.2_512.safetensors	verpackte Sadtalker-Kontrollpunkte der alten Version, 512-Gesichtsrendering).
gfpgan/weights	Gesichtserkennung und erweiterte Modelle, die in `facexlib` und `gfpgan` verwendet werden.

Alte Version

Modell	Beschreibung
checkpoints/auido2exp_00300-model.pth	Vorab trainiertes ExpNet in Sadtalker.
checkpoints/auido2pose_00140-model.pth	Vorab trainiertes PoseVAE in Sadtalker.
checkpoints/mapping_00229-model.pth.tar	Vorab trainiertes MappingNet in Sadtalker.
checkpoints/mapping_00109-model.pth.tar	Vorab trainiertes MappingNet in Sadtalker.
checkpoints/facevid2vid_00189-model.pth.tar	Vorab trainiertes Face-Vid2vid-Modell aus dem Wiederauftauchen von Face-Vid2vid.
checkpoints/epoch_20.pth	Vortrainierter 3DMM-Extraktor in Deep3DFaceReconstruction.
checkpoints/wav2lip.pth	Hochpräzises Lippensynchronisationsmodell in Wav2lip.
checkpoints/shape_predictor_68_face_landmarks.dat	Gesichts-Wahrzeichenmodell, das in Dilb verwendet wird.
Kontrollpunkte/BFM	3DMM-Bibliotheksdatei.
Kontrollpunkte/Hub	Gesichtserkennungsmodelle, die bei der Gesichtsausrichtung verwendet werden.
gfpgan/weights	Gesichtserkennung und erweiterte Modelle, die in `facexlib` und `gfpgan` verwendet werden.

Der endgültige Ordner wird wie folgt angezeigt:

3. Schnellstart

Bitte lesen Sie unser Dokument mit Best Practices und Konfigurationstipps

WebUI-Demos

Online-Demo : HuggingFace | SDWebUI-Colab | Colab

Lokale WebUI-Erweiterung : Bitte beachten Sie die WebUI-Dokumente.

Lokale Gradio-Demo (empfohlen) : Eine Gradio-Instanz ähnlich unserer Hugging Face-Demo kann lokal ausgeführt werden:

 # # you need manually install TTS(https://github.com/coqui-ai/TTS) via `pip install tts` in advanced.
python app_sadtalker.py

Sie können es auch einfacher starten:

Windows: Doppelklicken Sie einfach auf webui.bat . Die Anforderungen werden automatisch installiert.
Linux/Mac OS: Führen Sie bash webui.sh aus, um die Webui zu starten.

CLI-Nutzung

Animieren eines Porträtbilds aus der Standardkonfiguration:

python inference.py --driven_audio < audio.wav > 
                    --source_image < video.mp4 or picture.png > 
                    --enhancer gfpgan

Die Ergebnisse werden in results/$SOME_TIMESTAMP/*.mp4 gespeichert.

Ganzkörper-/Bilderzeugung:

Verwenden von --still , um ein natürliches Ganzkörpervideo zu erstellen. Sie können enhancer hinzufügen, um die Qualität des generierten Videos zu verbessern.

python inference.py --driven_audio < audio.wav > 
                    --source_image < video.mp4 or picture.png > 
                    --result_dir < a file to store results > 
                    --still 
                    --preprocess full 
                    --enhancer gfpgan

Weitere Beispiele sowie Konfigurations- und Tipps finden Sie in den >>>Best-Practice-Dokumenten<<<.

Zitat

Wenn Sie unsere Arbeit für Ihre Forschung nützlich finden, denken Sie bitte darüber nach, Folgendes zu zitieren:

 @article { zhang2022sadtalker ,
  title = { SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation } ,
  author = { Zhang, Wenxuan and Cun, Xiaodong and Wang, Xuan and Zhang, Yong and Shen, Xi and Guo, Yu and Shan, Ying and Wang, Fei } ,
  journal = { arXiv preprint arXiv:2211.12194 } ,
  year = { 2022 }
}

Danksagungen

Der Facerender-Code lehnt sich stark an Zhanglonghaos Reproduktion von face-vid2vid und PIRender an. Wir danken den Autoren für die Weitergabe ihres wunderbaren Codes. Im Trainingsprozess verwendeten wir auch das Modell von Deep3DFaceReconstruction und Wav2lip. Wir danken für ihre wunderbare Arbeit.

Wir verwenden außerdem die folgenden Bibliotheken von Drittanbietern:

Face-Utils : https://github.com/xinntao/facexlib
Gesichtsverbesserung : https://github.com/TencentARC/GFPGAN
Bild-/Videoverbesserung : https://github.com/xinntao/Real-ESRGAN

Erweiterungen:

SadTalker-Video-Lip-Sync von @Zz-ww: SadTalker für die Video-Lippenbearbeitung

Haftungsausschluss

Dies ist kein offizielles Produkt von Tencent.

 1. Please carefully read and comply with the open-source license applicable to this code before using it. 
2. Please carefully read and comply with the intellectual property declaration applicable to this code before using it.
3. This open-source code runs completely offline and does not collect any personal information or other data. If you use this code to provide services to end-users and collect related data, please take necessary compliance measures according to applicable laws and regulations (such as publishing privacy policies, adopting necessary data security strategies, etc.). If the collected data involves personal information, user consent must be obtained (if applicable). Any legal liabilities arising from this are unrelated to Tencent.
4. Without Tencent's written permission, you are not authorized to use the names or logos legally owned by Tencent, such as "Tencent." Otherwise, you may be liable for legal responsibilities.
5. This open-source code does not have the ability to directly provide services to end-users. If you need to use this code for further model training or demos, as part of your product to provide services to end-users, or for similar use, please comply with applicable laws and regulations for your product or service. Any legal liabilities arising from this are unrelated to Tencent.
6. It is prohibited to use this open-source code for activities that harm the legitimate rights and interests of others (including but not limited to fraud, deception, infringement of others' portrait rights, reputation rights, etc.), or other behaviors that violate applicable laws and regulations or go against social ethics and good customs (including providing incorrect or false information, spreading pornographic, terrorist, and violent information, etc.). Otherwise, you may be liable for legal responsibilities.

LOGO: Farb- und Schriftartvorschlag: ChatGPT, Logo-Schriftart: Montserrat Alternates.

Alle Urheberrechte an den Demobildern und Audiodateien liegen bei Community-Benutzern oder der Generation von Stable Diffusion. Wenn Sie diese entfernen möchten, können Sie sich gerne an uns wenden.

Expandieren

Zusätzliche Informationen

Version v0.0.2 rc Release Note
Typ Anderer Quellcode
Aktualisierungszeit 2024-12-05
Größe 50MB
Kommt von Github

Ähnliche Anwendungen

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

SadTalker

Höhepunkte

Änderungsprotokoll

Zu erledigen

Fehlerbehebung

1. Installation.

Linux/Unix

Windows

macOS

Docker, WSL usw

2. Modelle herunterladen

Vorgefertigte Modelle

GFPGAN Offline-Patch

Neue Version

Alte Version

3. Schnellstart

WebUI-Demos

CLI-Nutzung

Animieren eines Porträtbilds aus der Standardkonfiguration:

Ganzkörper-/Bilderzeugung:

Zitat

Danksagungen

Erweiterungen:

Verwandte Werke

Haftungsausschluss

waymo open dataset

SmartTube

Sunamu

MySchedule.py

viptools for eslam

VITAident

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind