Загрузка SadTalker - Загрузка исходного кода SadTalker

SadTalker

Другой исходный код

v0.0.2 rc Release Note

Скачать

Вэньсюань Чжан ^*,1,2 Сяодун Цунь ^*,2 Сюань Ван ³ Юн Чжан ² Си Шен ²
Юй Го ¹ Ин Шань ² Фэй Ван ¹

¹ Сианьский университет Цзяотун ² Лаборатория искусственного интеллекта Tencent ³ Ant Group

ЦВПР 2023

грустный говорящий

TL;DR: одно портретное изображение ?‍♂️ + звук ? = видео с говорящей головой ?.

Основные моменты

Лицензия обновлена до Apache 2.0, и мы сняли некоммерческое ограничение.
SadTalker теперь официально интегрирован в Discord, где вы можете бесплатно использовать его, отправляя файлы. Вы также можете создавать высококачественные видеоролики из текстовых подсказок. Присоединиться:
Мы опубликовали расширение стабильной диффузии-webui. Более подробную информацию можно найти здесь. Демо-видео
Теперь доступен полноэкранный режим! Подробнее...

еще+усилитель в версии 0.0.1	еще + усилитель в v0.0.2	входное изображение @bagbag1815
Still_e_n.mp4	full_body_2.bus_chinese_enhanced.mp4

Теперь доступно несколько новых режимов (режимы неподвижности, эталонного режима и режима изменения размера)!
Мы рады видеть больше демо-версий от сообщества на bilibili, YouTube и X (#sadtalker).

Журнал изменений

Предыдущий список изменений можно найти здесь.

[2023.06.12] : В расширение WebUI добавлено больше новых функций, см. обсуждение здесь.
[2023.06.05] : выпущена новая модель лица размером 512x512 пикселей (бета). Исправлены некоторые ошибки и улучшена производительность.
[2023.04.15] : Добавлен блокнот WebUI Colab от @camenduru:
[2023.04.12] : добавлен более подробный документ по установке WebUI и исправлена проблема при переустановке.
[2023.04.12] : исправлены проблемы безопасности WebUI из-за сторонних пакетов и оптимизирован путь вывода в sd-webui-extension .
[2023.04.08] : В версии 0.0.2 мы добавили водяной знак логотипа к сгенерированному видео, чтобы предотвратить злоупотребления. Этот водяной знак был удален в более поздней версии.
[2023.04.08] : В версии 0.0.2 мы добавили функции полной анимации изображения и ссылку для загрузки контрольных точек из Baidu. Мы также оптимизировали логику усилителя.

Дела

Мы отслеживаем новые обновления в выпуске №280.

Поиск неисправностей

Если у вас возникли проблемы, пожалуйста, прочитайте наши часто задаваемые вопросы, прежде чем открывать проблему.

1. Установка.

Руководства сообщества: 中文Windows教程 (учебник по Windows на китайском языке) | 日本語コース (учебник по японскому языку).

Линукс/Юникс

Установите Anaconda, Python и git .
Создание окружения и установка требований.

git clone https://github.com/OpenTalker/SadTalker.git

cd SadTalker 

conda create -n sadtalker python=3.8

conda activate sadtalker

pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113

conda install ffmpeg

pip install -r requirements.txt

# ## Coqui TTS is optional for gradio demo. 
# ## pip install TTS

Окна

Видеоурок на китайском языке доступен здесь. Вы также можете следовать следующим инструкциям:

Установите Python 3.8 и установите флажок «Добавить Python в PATH».
Установите git вручную или с помощью Scoop: scoop install git .
Установите ffmpeg , следуя этому руководству или используя scoop: scoop install ffmpeg .
Загрузите репозиторий SadTalker, запустив git clone https://github.com/Winfredy/SadTalker.git .
Загрузите контрольные точки и модели gfpgan в разделе загрузок.
Запустите start.bat из проводника Windows как обычно, без прав администратора, как пользователь, и будет запущена демонстрационная версия WebUI на базе Gradio.

macOS

Руководство по установке SadTalker на macOS можно найти здесь.

Докер, WSL и т. д.

Пожалуйста, ознакомьтесь с дополнительными уроками здесь.

2. Загрузите модели

Вы можете запустить следующий скрипт в Linux/macOS, чтобы автоматически загрузить все модели:

bash scripts/download_models.sh

Мы также предоставляем автономный патч ( gfpgan/ ), поэтому при создании модель не загружается.

Предварительно обученные модели

Гугл Диск
Релизы на GitHub
Baidu (百度云盘) (пароль: sadt )

Офлайн-патч GFPGAN

Гугл Диск
Релизы на GitHub
Baidu (百度云盘) (пароль: sadt )

Детали модели

Модель объясняет:

Новая версия

Модель	Описание
контрольные точки/mapping_00229-model.pth.tar	Предварительно обученная MappingNet в Sadtalker.
контрольные точки/mapping_00109-model.pth.tar	Предварительно обученная MappingNet в Sadtalker.
контрольные точки/SadTalker_V0.0.2_256.safetensors	упакованы чекпоинты sadtalker старой версии, 256 рендеров лиц).
контрольные точки/SadTalker_V0.0.2_512.safetensors	упакованы чекпоинты sadtalker старой версии, 512 рендеров лиц).
gfpgan/веса	Обнаружение лиц и расширенные модели, используемые в `facexlib` и `gfpgan` .

Старая версия

Модель	Описание
контрольные точки/auido2exp_00300-model.pth	Предварительно обученный ExpNet в Sadtalker.
контрольные точки/auido2pose_00140-model.pth	Предварительно обучен PoseVAE в Sadtalker.
контрольные точки/mapping_00229-model.pth.tar	Предварительно обученная MappingNet в Sadtalker.
контрольные точки/mapping_00109-model.pth.tar	Предварительно обученная MappingNet в Sadtalker.
контрольные точки/facevid2vid_00189-model.pth.tar	Предварительно обученная модель face-vid2vid после повторного появления face-vid2vid.
контрольные точки/epoch_20.pth	Предварительно обученный экстрактор 3DMM в Deep3DFaceReconstruction.
контрольные точки/wav2lip.pth	Высокоточная модель синхронизации губ в Wav2lip.
контрольные точки/shape_predictor_68_face_landmarks.dat	Модель ориентира лица, используемая в dilb.
контрольно-пропускные пункты/МДФ	Файл библиотеки 3DMM.
контрольно-пропускные пункты/пересадочный узел	Модели распознавания лиц, используемые при выравнивании лиц.
gfpgan/веса	Обнаружение лиц и расширенные модели, используемые в `facexlib` и `gfpgan` .

Последняя папка будет отображаться как:

3. Быстрый старт

Пожалуйста, прочитайте наш документ с рекомендациями и советами по настройке.

Демонстрации веб-интерфейса

Онлайн-демо : HuggingFace | SDWebUI-Колаб | Колаб

Локальное расширение WebUI : обратитесь к документации WebUI.

Локальная демонстрация градиента (рекомендуется) . Экземпляр Gradio, аналогичный нашей демонстрации Hugging Face, можно запустить локально:

 # # you need manually install TTS(https://github.com/coqui-ai/TTS) via `pip install tts` in advanced.
python app_sadtalker.py

Вы также можете запустить его проще:

Windows: просто дважды щелкните webui.bat , требования будут установлены автоматически.
Linux/Mac OS: запустите bash webui.sh , чтобы запустить webui.

Использование интерфейса командной строки

Анимация портретного изображения из конфигурации по умолчанию:

python inference.py --driven_audio < audio.wav > 
                    --source_image < video.mp4 or picture.png > 
                    --enhancer gfpgan

Результаты будут сохранены в results/$SOME_TIMESTAMP/*.mp4 .

Полное тело/генерация изображения:

Использование --still для создания естественного видео в полный рост. Вы можете добавить enhancer , чтобы улучшить качество создаваемого видео.

python inference.py --driven_audio < audio.wav > 
                    --source_image < video.mp4 or picture.png > 
                    --result_dir < a file to store results > 
                    --still 
                    --preprocess full 
                    --enhancer gfpgan

Дополнительные примеры, настройки и советы можно найти в >>> документах по передовому опыту <<<.

Цитирование

Если наша работа окажется полезной для вашего исследования, пожалуйста, процитируйте:

 @article { zhang2022sadtalker ,
  title = { SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation } ,
  author = { Zhang, Wenxuan and Cun, Xiaodong and Wang, Xuan and Zhang, Yong and Shen, Xi and Guo, Yu and Shan, Ying and Wang, Fei } ,
  journal = { arXiv preprint arXiv:2211.12194 } ,
  year = { 2022 }
}

Благодарности

Код Facerender во многом заимствован у zhanglonghao, воспроизводящего face-vid2vid и PIRender. Мы благодарим авторов за то, что поделились своим замечательным кодом. В процессе обучения мы также использовали модели Deep3DFaceReconstruction и Wav2lip. Мы благодарим их за прекрасную работу.

Мы также используем следующие сторонние библиотеки:

Face Utils : https://github.com/xinntao/facexlib.
Улучшение лица : https://github.com/TencentARC/GFPGAN.
Улучшение изображения/видео : https://github.com/xinntao/Real-ESRGAN

Расширения:

SadTalker-Video-Lip-Sync от @Zz-ww: SadTalker для редактирования видео губ

Отказ от ответственности

Это не официальный продукт Tencent.

 1. Please carefully read and comply with the open-source license applicable to this code before using it. 
2. Please carefully read and comply with the intellectual property declaration applicable to this code before using it.
3. This open-source code runs completely offline and does not collect any personal information or other data. If you use this code to provide services to end-users and collect related data, please take necessary compliance measures according to applicable laws and regulations (such as publishing privacy policies, adopting necessary data security strategies, etc.). If the collected data involves personal information, user consent must be obtained (if applicable). Any legal liabilities arising from this are unrelated to Tencent.
4. Without Tencent's written permission, you are not authorized to use the names or logos legally owned by Tencent, such as "Tencent." Otherwise, you may be liable for legal responsibilities.
5. This open-source code does not have the ability to directly provide services to end-users. If you need to use this code for further model training or demos, as part of your product to provide services to end-users, or for similar use, please comply with applicable laws and regulations for your product or service. Any legal liabilities arising from this are unrelated to Tencent.
6. It is prohibited to use this open-source code for activities that harm the legitimate rights and interests of others (including but not limited to fraud, deception, infringement of others' portrait rights, reputation rights, etc.), or other behaviors that violate applicable laws and regulations or go against social ethics and good customs (including providing incorrect or false information, spreading pornographic, terrorist, and violent information, etc.). Otherwise, you may be liable for legal responsibilities.

ЛОГОТИП: цвет и шрифт: ChatGPT, шрифт логотипа: Montserrat Alternates.

Все авторские права на демо-изображения и аудио принадлежат пользователям сообщества или созданы в результате стабильного распространения. Не стесняйтесь обращаться к нам, если вы хотите их удалить.

Расширять

Дополнительная информация

Версия v0.0.2 rc Release Note
Тип Другой исходный код
Время обновления 2024-12-05
размер 50MB
От Github

Связанные приложения

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

SadTalker

Основные моменты

Журнал изменений

Дела

Поиск неисправностей

1. Установка.

Линукс/Юникс

Окна

macOS

Докер, WSL и т. д.

2. Загрузите модели

Предварительно обученные модели

Офлайн-патч GFPGAN

Новая версия

Старая версия

3. Быстрый старт

Демонстрации веб-интерфейса

Использование интерфейса командной строки

Анимация портретного изображения из конфигурации по умолчанию:

Полное тело/генерация изображения:

Цитирование

Благодарности

Расширения:

Похожие работы

Отказ от ответственности

waymo open dataset

SmartTube

Sunamu

MySchedule.py

viptools for eslam

VITAident

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind