A estrutura de geração de vídeo retrato EMO lançada pela equipe do Alibaba é um grande avanço no campo da geração de conteúdo digital. Ele pode gerar vídeos realistas contendo ricas expressões faciais e movimentos de cabeça com base em imagens e áudio de referência, conseguindo tecnicamente uma fusão perfeita de sons, imagens e movimentos. O EMO utiliza modelos pré-treinados e tecnologia de processamento de ruído multiquadro para melhorar significativamente a expressividade e o realismo dos vídeos gerados, superando tecnologias similares existentes. Este avanço tecnológico terá um impacto profundo nas indústrias de mídia digital e de conteúdo virtual.
A equipe do Alibaba lançou a estrutura de geração de vídeo de retrato EMO, que é capaz de gerar vídeos de retrato de voz com ricas expressões faciais e poses de cabeça. O EMO utiliza uma rede de referência para extrair recursos de imagens de referência e quadros de ação, processa e incorpora sons por meio de um codificador de áudio pré-treinado e combina ruído de vários quadros e máscaras de região facial para gerar vídeos. Os resultados experimentais mostram que o EMO supera os métodos existentes em termos de expressividade e realismo. A potencial direção de aplicação deste modelo melhorará o nível técnico da mídia digital e da geração de conteúdo virtual, mas também poderá ser utilizado como ferramenta criminosa.A emergência do quadro EMO irá, sem dúvida, levar a criação de conteúdos digitais a novos patamares, mas também é necessário estar alerta para os seus potenciais riscos de abuso. São necessárias normas éticas e medidas regulamentares relevantes para orientar o seu desenvolvimento saudável e garantir a segurança e fiabilidade. de suas aplicações. O progresso tecnológico deve sempre ser orientado para as pessoas e contribuir positivamente para o desenvolvimento social.