A tecnologia de geração de vídeo fez um progresso significativo nos últimos anos, mas os modelos existentes ainda têm limitações na captura de movimentos complexos e fenômenos físicos. A equipe de pesquisa da Meta propôs a estrutura do Videojam, com o objetivo de aprimorar a expressividade do movimento dos modelos de geração de vídeo através da representação conjunta de movimento de aparência.
No campo da geração de vídeo, apesar do progresso significativo nos últimos anos, os modelos generativos existentes ainda lutam para capturar movimentos complexos, fenômenos dinâmicos e físicos na realidade. Essa limitação decorre principalmente dos objetivos tradicionais de reconstrução de pixels, que tendem a melhorar o realismo da aparência e ignorar a consistência do movimento.
Para resolver esse problema, a equipe de pesquisa da Meta propôs uma nova estrutura chamada Videojam, que visa injetar Priors de movimento eficaz em modelos de geração de vídeos, incentivando os modelos para aprender representações de movimento de aparência conjunta.
A estrutura do VideoJam contém duas unidades complementares. Durante a fase de treinamento, a estrutura estende o objetivo de prever os pixels gerados e o movimento correspondente, ambos de uma única representação de aprendizado.
Durante a fase de raciocínio, a equipe de pesquisa introduziu um mecanismo chamado "orientação intrínseca" que orienta o processo de geração em direção a uma direção de movimento consistente, utilizando a própria previsão de movimento em evolução do modelo como um sinal de orientação dinâmica. Vale a pena notar que o videojam pode ser aplicado a qualquer modelo de geração de vídeo sem modificar os dados de treinamento ou estender o modelo.
O Videojam provou ser um nível líder do setor em consistência do movimento, superando vários modelos proprietários altamente competitivos, além de melhorar a qualidade visual das imagens geradas. Os resultados deste estudo enfatizam a relação complementar entre aparência e movimento, o que pode melhorar significativamente o efeito visual e a coerência do movimento da geração de vídeo quando os dois são efetivamente combinados.
Além disso, a equipe de pesquisa demonstrou o excelente desempenho do Videojam-30b na geração de tipos de esportes complexos, incluindo cenas como skatistas de skatistas e dançarinos de balé girando no lago. Ao comparar o modelo BIBASE DIT-30B, o estudo constatou que o Videojam melhorou significativamente a qualidade da geração de movimento.
Entrada do projeto: https://hila-chefer.github.io/videojam-paper.github.io/
Pontos -chave:
O VideoJam Framework aprimora a expressividade do movimento dos modelos de geração de vídeo por meio de representação de movimento de aparência conjunta.
Durante o treinamento, o videojam pode prever pixels e movimentos simultaneamente, aumentando a consistência do conteúdo gerado.
Está provado que o Videojam supera vários modelos competitivos, tanto na consistência do movimento quanto na qualidade visual.
A estrutura do VideoJam da Meta trouxe novos avanços na tecnologia de geração de vídeo.