A equipe de pesquisa da Universidade de Toronto e do Vector Institute lançou recentemente o modelo CAP4D, uma tecnologia inovadora de geração de avatar 4D. Ele é baseado no modelo de difusão de múltiplas visualizações deformável (MMDM) e pode gerar avatares 4D realistas e controláveis em tempo real a partir de qualquer número de imagens de referência, melhorando significativamente o efeito de reconstrução do avatar e a apresentação detalhada. Esta tecnologia pode não apenas processar uma única ou um pequeno número de imagens de referência, mas pode até gerar avatares a partir de prompts de texto ou obras de arte, demonstrando sua forte adaptabilidade e capacidade geradora. Seu método de dois estágios primeiro usa MMDM para gerar imagens com diferentes perspectivas e expressões e, em seguida, combina imagens de referência para reconstruir avatares 4D. Ele suporta a combinação com modelos de edição de imagem existentes e modelos de animação baseados em voz para obter interações mais ricas e efeitos dinâmicos. fornece avatares virtuais. Os aplicativos abrem novas possibilidades.
O modelo adota um método de duas etapas, primeiro usando MMDM para gerar imagens com diferentes perspectivas e expressões, e depois combinando essas imagens geradas com imagens de referência para reconstruir um avatar 4D que pode ser controlado em tempo real. Os usuários podem inserir qualquer número de imagens de referência, e o modelo usará essas informações de imagem para gerar avatares 4D de alta qualidade e oferece suporte à combinação com modelos de animação acionados por voz para obter efeitos dinâmicos acionados por áudio. O surgimento do modelo CAP4D marca um progresso significativo na tecnologia de geração de avatares 4D, que tem amplas perspectivas de aplicação em campos como realidade virtual, jogos e metaverso.
A equipe de pesquisa demonstrou uma variedade de avatares gerados pelo CAP4D, abrangendo uma única imagem de referência, um pequeno número de imagens de referência e o cenário mais desafiador de geração de avatares a partir de prompts de texto ou arte. Ao utilizar múltiplas imagens de referência, o modelo é capaz de recuperar detalhes e geometrias que não podem ser vistos em uma única imagem, melhorando o desempenho da reconstrução. Além disso, o CAP4D também pode ser combinado com modelos de edição de imagens existentes, permitindo aos usuários editar a aparência e a iluminação do avatar gerado.
A fim de melhorar ainda mais a expressividade do avatar, o CAP4D pode combinar o avatar 4D gerado com o modelo de animação baseado em voz para obter efeitos de animação baseados em áudio. Isso permite que o avatar não apenas exiba efeitos visuais estáticos, mas também interaja dinamicamente com os usuários por meio do som, criando um novo campo de aplicações de avatar virtual.
Destaques:
O modelo CAP4D pode gerar avatares 4D de alta qualidade a partir de qualquer número de imagens de referência, usando um fluxo de trabalho em duas etapas.
Essa tecnologia pode gerar avatares de diversas perspectivas diferentes, melhorando significativamente o efeito de reconstrução da imagem e a apresentação detalhada.
CAP4D é combinado com o modelo de animação acionado por voz para realizar avatares dinâmicos acionados por áudio e expandir os cenários de aplicação de avatares virtuais.
Em suma, o modelo CAP4D fez um avanço significativo no campo da geração de avatares 4D, e as suas características eficientes, realistas e multifuncionais trouxeram novas possibilidades para campos como a realidade virtual e o entretenimento digital. No futuro, espera-se que esta tecnologia se desenvolva ainda mais para fornecer aos usuários uma experiência interativa virtual mais conveniente e realista.