lip synthesis Télécharger - lip synthesis Code source télécharger

lip synthesis

Code Source AI

1.0.0

Télécharger

Synthèse audio-visuelle des lèvres via une représentation de points de repère intermédiaires | Projet de fin d'études (thèse) de Wish Suharitdamrong

Il s'agit d'une implémentation de code pour le projet de dernière année de Wish Suharitdamrong, année 3 BSc en informatique à l'Université de Surrey sur le thème de la synthèse labiale audio-visuelle via une représentation de points de repère intermédiaires.

Texte alternatif

Démo

Une démonstration en ligne est disponible sur ? ÉtreindreVisage

Installation

Il existe deux façons d'installer le package en utilisant conda ou pip

1.Créer un environnement conda virtuel à partir d' environment.yml

2.Utilisez pip pour installer un package (assurez-vous d'utiliser python 3.7 ou supérieur, car les anciennes versions peuvent ne pas prendre en charge certaines bibliothèques)

Utiliser Conda

 # Créer un environnement virtuel à partir d'un fichier .ymlconda env create -f environnement.yml# activer l'environnement virtuelconda activer fyp

Utiliser pip

 # Utilisez pip pour installer require packagespip install -r require.txt

Ensemble de données

Les ensembles de données audiovisuelles utilisés dans ce projet sont LRS2 et LRS3. Les données LRS2 ont été utilisées à la fois pour la formation et l'évaluation du modèle. Les données LRS3 n'ont été utilisées que pour l'évaluation du modèle.

Ensemble de données	Page
LRS2	Lien
LRS3	Lien

Poids de pré-entraînement

Modèle de générateur

Télécharger le modèle de générateur de poids

Modèle	Lien de téléchargement
Générateur	Lien
Générateur + SyncLoss	Lien
Générateur d'attention + SyncLoss	Lien

Discriminateur SyncNet historique

Télécharger les poids pour le modèle SyncNet basé sur Landmark Lien de téléchargement

Traduction image à image

Le poids pré-entraîné pour le modèle Image2Image Translation peut être téléchargé à partir du référentiel MakeItTalk sur leur section de modèles pré-entraînés Repo Link.

Annuaire

 ├── point de contrôle # Répertoire du point de contrôle du modèle│ └── générateur # mettre les poids du modèle du générateur ici│ └── syncnet # mettre les poids du modèle Landmark SyncNet ici│ └── image2image # mettre les poids du modèle Image2Image Translation ici

Exécuter l'inférence

python run_inference.py --generator_checkpoint <checkpoint_path> --image2image_checkpoint <checkpoint_path> --input_face <image/video_path> --input_audio <audio_source_path>

Prétraitement des données

J'ai utilisé les mêmes méthodes de prétraitement des données que Wav2Lip pour plus de détails sur la structure des dossiers peuvent être trouvés dans leur référentiel ici.

python preprocess_data.py --data_root data_root/main --preprocessed_root preprocessed_lrs2_landmark/

Modèle de train

Générateur

# CLI for traning attention generator with pretrain landmark SyncNet discriminator
python run_train_generator.py --model_type attnlstm --train_type pretrain --data_root preprocessed_lrs2_landmark/ --checkpoint_dir <folder_to_save_checkpoints>

SyncNet historique

# CLI for training pretrain landmark SyncNet discriminator
python run_train_syncnet.py --data_root preprocessed_lrs2_landmark/ --checkpoint_dir <folder_to_save_checkpoints>

Générer une vidéo pour l'évaluation et le benchmark à partir de LRS2 et LRS3

Ce projet a utilisé les données des ensembles de données LRS2 et LRS3 pour une évaluation quantitative, la liste des données d'évaluation est fournie par Wav2Lip. La liste de fichiers (données vidéo et audio utilisées pour l'évaluation) et les détails sur le benchmark Lip Sync sont disponibles dans leur référentiel ici.

Générer une évaluation à partir de la liste de fichiers

cd evaluation
# generate evaluation videos
python gen_eval_vdo.py --filelist <path> --data_root <path>  --model_type <type_of_model> --result_dir <save_path> --generator_checkpoint <gen_ckpt> --image2image_checkpoint <image2image_checkpoint>

Reconnaissance

La base de code de ce projet a été inspirée de Wav2Lip et MakeItTalk. Je voudrais remercier l'auteur des deux projets pour avoir rendu la mise en œuvre du code de leur incroyable travail disponible en ligne.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2024-12-04
taille 1.41MB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout