Download SadTalker - Download do código-fonte SadTalker

SadTalker

Outro código-fonte

v0.0.2 rc Release Note

Baixar

Wenxuan Zhang ^*,1,2 Xiaodong Cun ^*,2 Xuan Wang ³ Yong Zhang ² Xi Shen ²
Yu Guo ¹ Ying Shan ² Fei Wang ¹

¹ Universidade Xi'an Jiaotong ² Laboratório Tencent AI ³ Grupo Ant

CVPR 2023

triste

DR: imagem de retrato único ?‍♂️ + áudio ? = vídeo da cabeça falante?.

Destaques

A licença foi atualizada para Apache 2.0 e removemos a restrição não comercial
SadTalker agora foi oficialmente integrado ao Discord, onde você pode usá-lo gratuitamente enviando arquivos. Você também pode gerar vídeos de alta qualidade a partir de prompts de texto. Juntar:
Publicamos uma extensão webui de difusão estável. Confira mais detalhes aqui. Vídeo de demonstração
O modo de imagem completa já está disponível! Mais detalhes...

ainda + intensificador em v0.0.1	ainda + intensificador em v0.0.2	imagem de entrada @ bagbag1815
still_e_n.mp4	full_body_2.bus_chinese_enhanced.mp4

Vários novos modos (modos estáticos, de referência e de redimensionamento) estão agora disponíveis!
Estamos felizes em ver mais demonstrações da comunidade no bilibili, YouTube e X (#sadtalker).

Registro de alterações

O changelog anterior pode ser encontrado aqui.

[2023.06.12] : Adicionados mais novos recursos na extensão WebUI, veja a discussão aqui.
[2023.06.05] : Lançado um novo modelo de rosto de 512x512px (beta). Corrigidos alguns bugs e melhorado o desempenho.
[2023.04.15] : Adicionado um notebook WebUI Colab por @camenduru:
[2023.04.12] : Adicionado um documento de instalação do WebUI mais detalhado e corrigido um problema durante a reinstalação.
[2023.04.12] : Corrigidos problemas de segurança do WebUI devido a pacotes de terceiros e otimizado o caminho de saída em sd-webui-extension .
[2023.04.08] : Na v0.0.2, adicionamos uma marca d'água de logotipo ao vídeo gerado para evitar abusos. Esta marca d'água foi removida em uma versão posterior.
[2023.04.08] : Na v0.0.2, adicionamos recursos para animação completa da imagem e um link para baixar pontos de verificação do Baidu. Também otimizamos a lógica do intensificador.

Pendência

Estamos acompanhando novas atualizações na edição nº 280.

Solução de problemas

Se você tiver algum problema, leia nossas Perguntas frequentes antes de abrir um problema.

1. Instalação.

Tutoriais da comunidade: 中文Windows教程 (tutorial chinês do Windows) | 日本語コース (Tutorial em japonês).

Linux/Unix

Instale Anaconda, Python e git .
Criando o ambiente e instalando os requisitos.

git clone https://github.com/OpenTalker/SadTalker.git

cd SadTalker 

conda create -n sadtalker python=3.8

conda activate sadtalker

pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113

conda install ffmpeg

pip install -r requirements.txt

# ## Coqui TTS is optional for gradio demo. 
# ## pip install TTS

Windows

Um tutorial em vídeo em chinês está disponível aqui. Você também pode seguir as seguintes instruções:

Instale o Python 3.8 e marque "Adicionar Python ao PATH".
Instale o git manualmente ou usando Scoop: scoop install git .
Instale ffmpeg , seguindo este tutorial ou usando scoop: scoop install ffmpeg .
Baixe o repositório SadTalker executando git clone https://github.com/Winfredy/SadTalker.git .
Baixe os pontos de verificação e modelos gfpgan na seção de downloads.
Execute start.bat no Windows Explorer normalmente, como usuário não administrador, e uma demonstração WebUI com tecnologia Gradio será iniciada.

macOS

Um tutorial sobre como instalar o SadTalker no macOS pode ser encontrado aqui.

Docker, WSL, etc.

Confira tutoriais adicionais aqui.

2. Baixe modelos

Você pode executar o seguinte script no Linux/macOS para baixar automaticamente todos os modelos:

bash scripts/download_models.sh

Também fornecemos um patch offline ( gfpgan/ ), para que nenhum modelo seja baixado durante a geração.

Modelos pré-treinados

Google Drive
Lançamentos do GitHub
Baidu (百度云盘) (senha: sadt )

Patch off-line do GFPGAN

Google Drive
Lançamentos do GitHub
Baidu (百度云盘) (senha: sadt )

Detalhes do modelo

O modelo explica:

Nova versão

Modelo	Descrição
pontos de verificação/mapping_00229-model.pth.tar	MappingNet pré-treinado em Sadtalker.
pontos de verificação/mapping_00109-model.pth.tar	MappingNet pré-treinado em Sadtalker.
pontos de verificação/SadTalker_V0.0.2_256.safetensors	pontos de verificação sadtalker empacotados da versão antiga, renderização de 256 faces).
pontos de verificação/SadTalker_V0.0.2_512.safetensors	pontos de verificação sadtalker empacotados da versão antiga, renderização de 512 faces).
gfpgan/pesos	Detecção de rosto e modelos aprimorados usados em `facexlib` e `gfpgan` .

Versão antiga

Modelo	Descrição
pontos de verificação/auido2exp_00300-model.pth	ExpNet pré-treinado em Sadtalker.
pontos de verificação/auido2pose_00140-model.pth	PoseVAE pré-treinado em Sadtalker.
pontos de verificação/mapping_00229-model.pth.tar	MappingNet pré-treinado em Sadtalker.
pontos de verificação/mapping_00109-model.pth.tar	MappingNet pré-treinado em Sadtalker.
pontos de verificação/facevid2vid_00189-model.pth.tar	Modelo face-vid2vid pré-treinado a partir do reaparecimento de face-vid2vid.
pontos de verificação/epoch_20.pth	Extrator 3DMM pré-treinado em Deep3DFaceReconstruction.
pontos de verificação/wav2lip.pth	Modelo de sincronização labial altamente preciso em Wav2lip.
pontos de verificação/shape_predictor_68_face_landmarks.dat	Modelo de referência facial usado em dilb.
pontos de verificação/BFM	Arquivo de biblioteca 3DMM.
pontos de verificação/centro	Modelos de detecção facial usados no alinhamento facial.
gfpgan/pesos	Detecção de rosto e modelos aprimorados usados em `facexlib` e `gfpgan` .

A pasta final será mostrada como:

3. Início rápido

Leia nosso documento sobre práticas recomendadas e dicas de configuração

Demonstrações de WebUI

Demonstração on-line : HuggingFace | SDWebUI-Colab | Colab

Extensão WebUI local : consulte a documentação do WebUI.

Demonstração gradio local (recomendada) : uma instância Gradio semelhante à nossa demonstração Hugging Face pode ser executada localmente:

 # # you need manually install TTS(https://github.com/coqui-ai/TTS) via `pip install tts` in advanced.
python app_sadtalker.py

Você também pode iniciá-lo com mais facilidade:

windows: basta clicar duas vezes em webui.bat e os requisitos serão instalados automaticamente.
Linux/Mac OS: execute bash webui.sh para iniciar o webui.

Uso da CLI

Animando uma imagem de retrato a partir da configuração padrão:

python inference.py --driven_audio < audio.wav > 
                    --source_image < video.mp4 or picture.png > 
                    --enhancer gfpgan

Os resultados serão salvos em results/$SOME_TIMESTAMP/*.mp4 .

Geração de corpo inteiro/imagem:

Usando --still para gerar um vídeo natural de corpo inteiro. Você pode adicionar enhancer para melhorar a qualidade do vídeo gerado.

python inference.py --driven_audio < audio.wav > 
                    --source_image < video.mp4 or picture.png > 
                    --result_dir < a file to store results > 
                    --still 
                    --preprocess full 
                    --enhancer gfpgan

Mais exemplos, configurações e dicas podem ser encontradas nos documentos >>> melhores práticas <<<.

Citação

Se você achar nosso trabalho útil em sua pesquisa, considere citar:

 @article { zhang2022sadtalker ,
  title = { SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation } ,
  author = { Zhang, Wenxuan and Cun, Xiaodong and Wang, Xuan and Zhang, Yong and Shen, Xi and Guo, Yu and Shan, Ying and Wang, Fei } ,
  journal = { arXiv preprint arXiv:2211.12194 } ,
  year = { 2022 }
}

Agradecimentos

O código do Facerender é muito emprestado da reprodução de face-vid2vid e PIRender de zhanglonghao. Agradecemos aos autores por compartilhar seu código maravilhoso. No processo de treinamento, também utilizamos o modelo Deep3DFaceReconstruction e Wav2lip. Agradecemos pelo seu maravilhoso trabalho.

Também usamos as seguintes bibliotecas de terceiros:

Utilitários faciais : https://github.com/xinntao/facexlib
Aprimoramento facial : https://github.com/TencentARC/GFPGAN
Aprimoramento de imagem/vídeo : https://github.com/xinntao/Real-ESRGAN

Extensões:

SadTalker-Video-Lip-Sync de @Zz-ww: SadTalker para edição de vídeo labial

Trabalhos Relacionados

StyleHEAT: Geração de rosto falante editável de alta resolução e one-shot via StyleGAN pré-treinado (ECCV 2022)
CodeTalker: animação facial 3D orientada por fala com movimento discreto anterior (CVPR 2023)
VideoReTalking: sincronização labial baseada em áudio para edição de vídeo do Talking Head na natureza (SIGGRAPH Asia 2022)
DPE: Desemaranhamento de pose e expressão para edição geral de retratos de vídeo (CVPR 2023)
Inversão 3D GAN com simetria facial anterior (CVPR 2023)
T2M-GPT: Gerando Movimento Humano a partir de Descrições Textuais com Representações Discretas (CVPR 2023)

Isenção de responsabilidade

Este não é um produto oficial da Tencent.

 1. Please carefully read and comply with the open-source license applicable to this code before using it. 
2. Please carefully read and comply with the intellectual property declaration applicable to this code before using it.
3. This open-source code runs completely offline and does not collect any personal information or other data. If you use this code to provide services to end-users and collect related data, please take necessary compliance measures according to applicable laws and regulations (such as publishing privacy policies, adopting necessary data security strategies, etc.). If the collected data involves personal information, user consent must be obtained (if applicable). Any legal liabilities arising from this are unrelated to Tencent.
4. Without Tencent's written permission, you are not authorized to use the names or logos legally owned by Tencent, such as "Tencent." Otherwise, you may be liable for legal responsibilities.
5. This open-source code does not have the ability to directly provide services to end-users. If you need to use this code for further model training or demos, as part of your product to provide services to end-users, or for similar use, please comply with applicable laws and regulations for your product or service. Any legal liabilities arising from this are unrelated to Tencent.
6. It is prohibited to use this open-source code for activities that harm the legitimate rights and interests of others (including but not limited to fraud, deception, infringement of others' portrait rights, reputation rights, etc.), or other behaviors that violate applicable laws and regulations or go against social ethics and good customs (including providing incorrect or false information, spreading pornographic, terrorist, and violent information, etc.). Otherwise, you may be liable for legal responsibilities.

LOGO: sugestão de cor e fonte: ChatGPT, fonte do logotipo: Montserrat Alternates.

Todos os direitos autorais das imagens e áudio de demonstração são de usuários da comunidade ou de geração de difusão estável. Sinta-se à vontade para entrar em contato conosco se desejar removê-los.

Expandir

Informações adicionais

Versão v0.0.2 rc Release Note
Tipo Outro código-fonte
Data da Última Atualização 2024-12-05
tamanho 50MB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
SmartTube

Outro código-fonte

24.71 Stable
Sunamu

Outro código-fonte

Release 2.2.0
waymo open dataset

Outro código-fonte

December 2023 Update
wp functions

Outras categorias

1.0.0
termwind

Outras categorias

v2.3.0

Informações Relacionadas Todos