En los últimos años, la tecnología de inteligencia artificial se ha desarrollado rápidamente, especialmente en el campo de la producción de animación. La generación de videos dinámicos basados en imágenes estáticas se ha convertido en un punto de investigación. Los métodos tradicionales de producción de animación a menudo se basan en escasa información sobre la postura del esqueleto, lo que da como resultado efectos de animación que no son lo suficientemente precisos. Para resolver este problema, constantemente surgen nuevas tecnologías que se esfuerzan por lograr una animación de imágenes de personajes más precisa y controlable.
En los últimos años, con el rápido desarrollo de la inteligencia artificial y la tecnología de visión por computadora, la interacción entre humanos y computadoras se ha vuelto cada vez más vívida y expresiva. Especialmente en el campo de la producción de animación, cómo generar videos dinámicos basados en imágenes estáticas siempre ha sido un tema de investigación candente.
Recientemente, ha surgido una nueva tecnología llamada "DisPose", que logra efectos de animación de imágenes de personajes más controlables a través de una guía de postura desacoplada. En pocas palabras, DisPose permite la entrada de videos de acción y personajes de referencia, permitiendo que los personajes de referencia realicen las acciones en el video.
El núcleo de la tecnología DisPose radica en la reconstrucción y utilización de la información tradicional de pose escasa. Los métodos tradicionales se basan principalmente en una guía de pose escasa del esqueleto, que a menudo no puede proporcionar suficientes señales de control al generar videos dinámicamente, lo que resulta en efectos de animación insuficientemente detallados. Para compensar esta deficiencia, DisPose propone un método completamente nuevo para lograr una generación de movimiento más detallada al convertir información de pose escasa en guía de campo deportivo y correspondencias de puntos clave.
Específicamente, DisPose primero calcula campos de movimiento dispersos para poses esqueléticas e introduce un método de generación de campos de movimiento denso basado en imágenes de referencia. Este enfoque no sólo proporciona señales de movimiento a nivel regional sino que también mantiene la universalidad del control de actitud escaso. Al mismo tiempo, DisPose también extrae características de difusión correspondientes a puntos clave de pose de la imagen de referencia y luego transfiere estas características a la pose de destino calculando correspondencias de puntos de múltiples escalas para mejorar la consistencia de la apariencia.
Para permitir que esta tecnología innovadora se integre sin problemas en los modelos existentes, los investigadores también propusieron una arquitectura ControlNet híbrida enchufable. Esta arquitectura mejora la calidad y consistencia de los videos generados sin cambiar los parámetros del modelo existente. A través de extensos experimentos cualitativos y cuantitativos, DisPose demuestra ventajas significativas sobre las tecnologías actuales y presagia la dirección futura de la tecnología de producción de animación.
DisPose mejora la expresividad y la controlabilidad de la animación de retratos optimizando el uso de la información de la postura. Este progreso no sólo es de gran importancia en la investigación académica, sino que también aporta nuevas posibilidades a la futura industria de la animación.
Entrada del proyecto: https://lihxxx.github.io/DisPose/
Reflejos:
DisPose es una nueva tecnología de animación de retratos que permite una generación dinámica más precisa mediante una guía de pose desacoplada.
Esta tecnología convierte información dispersa sobre la postura en guía de campo de movimiento y correspondencia de puntos clave, proporcionando señales de movimiento detalladas.
La arquitectura híbrida ControlNet propuesta por los investigadores puede mejorar eficazmente la calidad y coherencia de los vídeos generados.
La aparición de la tecnología DisPose marca un nuevo hito en la tecnología de producción de animación. Su eficiente método de procesamiento de información gestual y su innovadora arquitectura híbrida ControlNet brindan un poderoso soporte técnico para una producción de animación de retratos más realista y detallada en el futuro, y también brindan posibilidades ilimitadas a la industria de la animación. Esperamos que DisPose desempeñe un papel más importante en la producción de animación en el futuro.