El equipo de investigación de la Universidad de Toronto y el Vector Institute lanzaron recientemente el modelo CAP4D, una innovadora tecnología de generación de avatares 4D. Se basa en el modelo de difusión de múltiples vistas deformable (MMDM) y puede generar avatares 4D realistas y controlables en tiempo real a partir de cualquier número de imágenes de referencia, mejorando significativamente el efecto de reconstrucción del avatar y la presentación detallada. Esta tecnología no sólo puede procesar una sola o una pequeña cantidad de imágenes de referencia, sino que incluso puede generar avatares a partir de mensajes de texto u obras de arte, lo que demuestra su gran adaptabilidad y capacidades generativas. Su método de dos etapas utiliza primero MMDM para generar imágenes con diferentes perspectivas y expresiones, y luego combina imágenes de referencia para reconstruir avatares 4D. Admite la combinación con modelos de edición de imágenes existentes y modelos de animación controlados por voz para lograr interacciones más ricas y efectos dinámicos. Proporciona avatares virtuales. Las aplicaciones abren nuevas posibilidades.
El modelo adopta un método de dos etapas: primero utiliza MMDM para generar imágenes con diferentes perspectivas y expresiones, y luego combina estas imágenes generadas con imágenes de referencia para reconstruir un avatar 4D que se puede controlar en tiempo real. Los usuarios pueden ingresar cualquier cantidad de imágenes de referencia, y el modelo utilizará esta información de imagen para generar avatares 4D de alta calidad y admite la combinación con modelos de animación controlados por voz para lograr efectos dinámicos controlados por audio. La aparición del modelo CAP4D marca un progreso significativo en la tecnología de generación de avatares 4D, que tiene amplias perspectivas de aplicación en campos como la realidad virtual, los juegos y el metaverso.
El equipo de investigación demostró una variedad de avatares generados por CAP4D, que abarcan una única imagen de referencia, una pequeña cantidad de imágenes de referencia y el escenario más desafiante de generar avatares a partir de indicaciones de texto o ilustraciones. Al utilizar múltiples imágenes de referencia, el modelo puede recuperar detalles y geometrías que no se pueden ver en una sola imagen, mejorando el rendimiento de la reconstrucción. Además, CAP4D también tiene la capacidad de combinarse con modelos de edición de imágenes existentes, lo que permite a los usuarios editar la apariencia y la iluminación del avatar generado.
Para mejorar aún más la expresividad del avatar, CAP4D puede combinar el avatar 4D generado con el modelo de animación controlado por voz para lograr efectos de animación controlados por audio. Esto permite que el avatar no sólo muestre efectos visuales estáticos, sino que también interactúe dinámicamente con los usuarios a través del sonido, creando un nuevo campo de aplicaciones de avatar virtual.
Destacar:
El modelo CAP4D puede generar avatares 4D de alta calidad a partir de cualquier cantidad de imágenes de referencia, utilizando un flujo de trabajo de dos etapas.
Esta tecnología puede generar avatares desde una variedad de perspectivas diferentes, mejorando significativamente el efecto de reconstrucción de la imagen y la presentación detallada.
CAP4D se combina con el modelo de animación impulsado por voz para realizar avatares dinámicos impulsados por audio y ampliar los escenarios de aplicación de avatares virtuales.
En definitiva, el modelo CAP4D ha logrado un avance significativo en el campo de la generación de avatares 4D, y sus características eficientes, realistas y multifuncionales han aportado nuevas posibilidades a campos como la realidad virtual y el entretenimiento digital. En el futuro, se espera que esta tecnología se desarrolle aún más para brindar a los usuarios una experiencia interactiva virtual más conveniente y realista.