Bytedance lanza Omnihuman: Genere videos dinámicos realistas de cuerpo completo a partir de fotos individuales - AI Artículos

Autor：Eve Cole Fecha de actualización：2025-02-06 06:32:02

Byte Beating lanza un nuevo sistema AI Omnihuman, que puede generar videos realistas de todo el cuerpo basados en fotos individuales para mostrar los discursos, el canto y las acciones naturales de los personajes. Esta tecnología integra una variedad de entradas, como los movimientos de texto, audio y humanos, y adopta el método de entrenamiento de "condición completa" para aprender de los datos masivos. La aparición de Omnihuman indica que el campo del entretenimiento digital y la comunicación introducirá nuevos cambios, trayendo posibilidades ilimitadas para la creación de videos, la producción de contenido educativo y la comunicación digital.

Omnihuman puede generar videos de cuerpo completo para mostrar los gestos y la dinámica de los personajes cuando hablan, superando los modelos AI que solo pueden simular la facial o la parte superior del cuerpo. El núcleo de esta tecnología es que combina una variedad de entradas, como el texto, el audio y los movimientos humanos.

El equipo de investigación señaló que Omnihuman ha mostrado un progreso significativo después de más de 18,700 horas de capacitación en datos de video humanos. Al introducir varias señales condicionales (como texto, audio y postura), esta tecnología no solo mejora la calidad de la generación de videos, sino que también reduce efectivamente los desechos de datos.

Los investigadores mencionaron en un artículo publicado en ARXIV que, aunque la tecnología final de la animación humana ha logrado un progreso significativo en los últimos años, los métodos existentes aún tienen limitaciones en la expansión de la escala de aplicaciones.

Omnihuman tiene una amplia gama de potencial de aplicación y se puede utilizar para hacer videos del habla, demostrar actuaciones instrumentales, etc. Después de las pruebas, esta tecnología es mejor que el sistema existente en múltiples puntos de referencia de calidad, mostrando su excelente rendimiento. Este desarrollo ha aparecido en el contexto de la creciente competencia entre la tecnología de generación de videos de IA, y compañías como Google, Meta y Microsoft también están persiguiendo activamente tecnologías similares.

Sin embargo, aunque Omnihuman aporta la posibilidad de cambios en la producción de entretenimiento, la creación de contenido educativo y la comunicación digital, también ha despertado las preocupaciones sobre el posible mal uso de los medios sintéticos. El equipo de investigación presentará sus resultados de investigación en una próxima conferencia de visión por computadora, aunque el tiempo y la reunión específicos aún no se han anunciado.

Tesis: https://arxiv.org/pdf/2502.01061

Agujas:

Omnihuman es un nuevo tipo de IA que puede transformar fotos individuales en videos realistas de todo el cuerpo.

Después de 18,700 horas de entrenamiento en datos de video humano, esta tecnología combina una variedad de señales de entrada para mejorar el efecto generador.

A pesar del amplio potencial de aplicación, también ha despertado las preocupaciones sobre la posibilidad de medios sintéticos.

El avance de la tecnología omnihumana ha establecido nuevos puntos de referencia para el campo de la generación de videos de IA, pero al mismo tiempo, también debe prestar atención a sus riesgos éticos potenciales. utilizado razonablemente y evite los impactos negativos. Esperamos más aplicaciones y resultados de investigación sobre Omnihuman en el futuro.