ByteDance ha lanzado un nuevo sistema de inteligencia artificial, INFP, que permite que las fotografías de retratos estáticos "hablen" y reaccionen a través de la entrada de audio. A diferencia de la tecnología tradicional, INFP no necesita especificar roles manualmente. El sistema puede juzgar automáticamente en función de la conversación, lo que mejora enormemente la eficiencia y la conveniencia. Su tecnología principal radica en los dos pasos de "imitación de la cabeza basada en el movimiento" y "generación de movimiento guiada por audio". Al analizar las expresiones faciales, los movimientos de la cabeza y la entrada de audio en las conversaciones, genera patrones de movimiento naturales y suaves para generar imágenes estáticas. a la vida. Para entrenar INFP, ByteDance también creó un conjunto de datos DyConv que contiene más de 200 horas de videos de conversaciones reales para garantizar una salida de alta calidad del sistema.
Hay dos pasos principales en el flujo de trabajo del INFP. En el primer paso, llamado "mimetismo de la cabeza basado en el movimiento", el sistema extrae detalles del vídeo analizando las expresiones faciales y los movimientos de la cabeza de las personas durante las conversaciones. Estos datos de movimiento se convierten a un formato que se puede utilizar en animaciones posteriores, lo que permite que las fotografías coincidan con el movimiento del personaje original.
El segundo paso es la "generación de movimiento guiada por audio", donde el sistema genera patrones de movimiento naturales basados en la entrada de audio. El equipo de investigación desarrolló una "guía de movimiento" que analiza el audio de ambas partes en una conversación para crear patrones de movimiento para hablar y escuchar. Luego, un componente de IA llamado Transformador de Difusión optimiza progresivamente estos patrones, lo que da como resultado un movimiento suave y realista que se adapta perfectamente al contenido de audio.
Para entrenar eficazmente el sistema, el equipo de investigación también estableció un conjunto de datos de diálogo llamado DyConv, que recopila más de 200 horas de vídeos de diálogo reales. En comparación con las bases de datos de conversaciones existentes, como ViCo y RealTalk, DyConv tiene ventajas únicas en expresión emocional y calidad de video.
ByteDance dice que INFP supera a las herramientas existentes en varias áreas clave, particularmente en hacer coincidir los movimientos de los labios con el habla, preservar los rasgos faciales individuales y crear diversos movimientos naturales. Además, el sistema funcionó igualmente bien a la hora de generar vídeos en los que sólo se escuchaba al interlocutor.
Aunque INFP actualmente solo admite entrada de audio, el equipo de investigación está explorando la posibilidad de extender el sistema a imágenes y texto. El objetivo futuro es poder crear animaciones realistas de todo el cuerpo del personaje. Sin embargo, considerando que este tipo de tecnología podría usarse para crear videos falsos y difundir información errónea, el equipo de investigación planea restringir el uso de la tecnología central a instituciones de investigación, similar a la gestión de Microsoft de su avanzado sistema de clonación de voz.
Esta tecnología es parte de la estrategia más amplia de IA de ByteDance. Basándose en sus populares aplicaciones TikTok y CapCut, ByteDance tiene una amplia plataforma de aplicaciones innovadoras de IA.
Entrada del proyecto: https://grisoon.github.io/INFP/
Reflejos:
INFP puede permitir que los retratos estáticos "hablen" a través de audio y determinen automáticamente el rol del diálogo.
El sistema funciona en dos pasos: primero, extrae detalles de movimiento en conversaciones humanas y, segundo, convierte el audio en patrones de movimiento naturales.
El conjunto de datos DyConv de ByteDance contiene más de 200 horas de videos de conversaciones de alta calidad para ayudar a mejorar el rendimiento del sistema.
El lanzamiento del sistema INFP demuestra la fuerza innovadora de ByteDance en el campo de la inteligencia artificial. Su potencial de desarrollo futuro es enorme, pero los posibles riesgos éticos también deben abordarse con cuidado. El avance de la tecnología siempre debe estar orientado hacia los intereses sociales y garantizar que se utilice en beneficio de la humanidad.