Le cadre de génération de vidéos portraits EMO lancé par l'équipe Alibaba constitue une avancée majeure dans le domaine de la génération de contenu numérique. Il peut générer des vidéos réalistes contenant des expressions faciales riches et des mouvements de tête basés sur des images et du son de référence, réalisant techniquement une fusion parfaite du son, des images et des mouvements. EMO utilise des modèles pré-entraînés et une technologie de traitement du bruit multi-images pour améliorer considérablement l'expressivité et le réalisme des vidéos générées, surpassant ainsi les technologies similaires existantes. Cette avancée technologique aura un impact profond sur les industries des médias numériques et du contenu virtuel.
L'équipe Alibaba a publié le cadre de génération de vidéos de portraits EMO, capable de générer des vidéos de portraits vocaux avec des expressions faciales et des poses de tête riches. EMO utilise un réseau de référence pour extraire les caractéristiques des images de référence et des images d'action, traite et intègre les sons via un encodeur audio pré-entraîné, et combine le bruit multi-images et les masques de région faciale pour générer des vidéos. Les résultats expérimentaux montrent que l'EMO surpasse les méthodes existantes en termes d'expressivité et de réalisme. L’orientation potentielle de l’application de ce modèle améliorera le niveau technique des médias numériques et de la génération de contenu virtuel, mais il pourrait également être utilisé comme outil criminel.L’émergence du cadre EMO poussera sans aucun doute la création de contenu numérique vers de nouveaux sommets, mais il est également nécessaire d’être attentif aux risques potentiels d’abus. Des normes éthiques et des mesures réglementaires pertinentes sont nécessaires pour guider son développement sain et garantir sa sécurité et sa fiabilité. de ses applications. Le progrès technologique doit toujours être axé sur les personnes et apporter une contribution positive au développement social.