Le dernier cadre de synchronisation labiale LatentSync publié par ByteDance utilise le modèle de diffusion latente conditionnelle audio basé sur Stable Diffusion pour obtenir un effet de synchronisation labiale plus précis et plus efficace. Contrairement aux méthodes précédentes, LatentSync adopte une approche de bout en bout pour modéliser directement la relation complexe entre l'audio et la vision sans nécessiter de représentation intermédiaire du mouvement, améliorant ainsi considérablement l'efficacité du traitement et la précision de la synchronisation. Ce framework utilise intelligemment Whisper pour l'intégration audio et le combine avec le mécanisme TREPA pour améliorer la cohérence temporelle, garantissant que la vidéo de sortie maintient la cohérence temporelle tout en maintenant la précision de la synchronisation labiale.
Récemment, ByteDance a publié un nouveau cadre de synchronisation labiale appelé LatentSync, qui vise à utiliser le modèle de diffusion latente des conditions audio pour obtenir une synchronisation labiale plus précise. Le framework est basé sur Stable Diffusion et est optimisé pour la cohérence temporelle.
Contrairement aux méthodes précédentes basées sur la diffusion spatiale des pixels ou la génération en deux étapes, LatentSync adopte une approche de bout en bout sans avoir recours à une représentation intermédiaire du mouvement et peut modéliser directement des relations audiovisuelles complexes.
Dans le cadre de LatentSync, Whisper est d'abord utilisé pour convertir des spectrogrammes audio en intégrations audio et intégré dans le modèle U-Net via des couches d'attention croisée. Le framework effectue une concaténation au niveau du canal des trames de référence et des trames de masque avec des variables de bruit latentes en entrée dans U-Net.
Pendant la formation, une approche en une étape est utilisée pour estimer des variables latentes propres à partir du bruit de prédiction, puis décoder pour générer des images propres. Dans le même temps, le modèle introduit le mécanisme TREPA (Temporal REPresentation Alignment) pour améliorer la cohérence temporelle et garantir que la vidéo générée peut maintenir la cohérence temporelle tout en maintenant la précision de la synchronisation labiale.
Pour démontrer l'efficacité de cette technologie, le projet propose une série d'exemples de vidéos, montrant la vidéo originale et la vidéo synchronisée sur les lèvres. A travers des exemples, les utilisateurs peuvent ressentir intuitivement les progrès significatifs de LatentSync en matière de synchronisation labiale vidéo.
Vidéo originale :
Vidéo de sortie :
En outre, le projet prévoit également d'ouvrir le code d'inférence et les points de contrôle pour faciliter la formation et les tests des utilisateurs. Pour les utilisateurs qui souhaitent essayer l'inférence, téléchargez simplement les fichiers de poids du modèle nécessaires et vous êtes prêt à partir. Un processus complet de traitement des données a également été conçu, couvrant chaque étape depuis le traitement des fichiers vidéo jusqu'à l'alignement du visage, garantissant que les utilisateurs peuvent démarrer facilement.
Entrée du projet modèle : https://github.com/bytedance/LatentSync
Points forts:
LatentSync est un cadre de synchronisation de bout en port basé sur le modèle de diffusion latente conditionnelle audio sans avoir besoin de représentations de mouvement intermédiaires.
Le framework utilise Whisper pour convertir les spectrogrammes audio en intégrations, ce qui améliore la précision et la cohérence temporelle du modèle lors de la synchronisation labiale.
Le projet fournit une série d'exemples de vidéos et prévoit d'ouvrir les codes et processus de traitement de données pertinents en source ouverte pour faciliter l'utilisation et la formation des utilisateurs.
L'open source et la facilité d'utilisation de LatentSync favoriseront le développement et l'application de la technologie de synchronisation labiale, apportant de nouvelles possibilités aux domaines du montage vidéo et de la création de contenu. Dans l'attente des mises à jour ultérieures de ce projet, qui apporteront d'autres surprises.