A Universidade de Pequim colaborou com a equipe Kuaishou AI para desenvolver uma nova estrutura de geração de vídeo chamada VideoTetris, que resolveu com sucesso o problema da geração complexa de vídeo e seu desempenho superou modelos comerciais como Pika e Gen-2. Esta estrutura define de forma inovadora tarefas combinadas de geração de vídeo, pode gerar vídeos com precisão de acordo com instruções complexas e suporta geração de vídeo longa e instruções progressivas de vários objetos, resolvendo efetivamente as deficiências dos modelos existentes no processamento de instruções e detalhes complexos, como localizar múltiplos com precisão. objetos e mantendo seus detalhes característicos.
Notícias do ChinaZ.com em 17 de junho: A Universidade de Pequim e a equipe de IA da Kuaishou colaboraram para superar com sucesso o problema da geração complexa de vídeos. Eles propuseram um novo framework chamado VideoTetris, que pode combinar facilmente vários detalhes como um quebra-cabeça para gerar vídeos de alta dificuldade e instruções complexas. Esta estrutura supera modelos comerciais como Pika e Gen-2 em tarefas complexas de geração de vídeo.
A estrutura VideoTetris define a tarefa de geração de vídeo combinada pela primeira vez, incluindo duas subtarefas: 1) geração de vídeo seguindo instruções de combinação complexas 2) geração de vídeo longo seguindo instruções progressivas combinadas de vários objetos; A equipe descobriu que quase todos os modelos comerciais e de código aberto existentes não conseguiram gerar vídeos corretos. Por exemplo, se você inserir "um lindo cachorro marrom à esquerda e um gato cochilando ao sol à direita", o vídeo resultante geralmente funde informações sobre os dois objetos, o que parece estranho.
Em contraste, o VideoTetris retém com sucesso todas as informações de localização e recursos detalhados. Na geração de vídeos longos, ele suporta instruções mais complexas, como "Transição de um lindo esquilo marrom em uma pilha de avelãs para um lindo esquilo marrom e um lindo esquilo branco em uma pilha de avelãs". A sequência dos vídeos gerados é consistente com as instruções de entrada, e os dois esquilos podem trocar comida naturalmente.
A estrutura VideoTetris adota o método de difusão combinada espaço-temporal. Primeiro, ele desconstrói os prompts de texto de acordo com o tempo e atribui diferentes informações de prompt a diferentes quadros de vídeo. Em seguida, a dimensão espacial é desconstruída em cada quadro para mapear diferentes objetos em diferentes áreas de vídeo. Finalmente, a geração eficiente de instruções combinadas é alcançada através da atenção cruzada espaço-temporal.
Para gerar vídeos longos de maior qualidade, a equipe também propôs um método aprimorado de pré-processamento de dados de treinamento para tornar a geração de vídeos longos mais dinâmica e estável. Além disso, um mecanismo de atenção ao quadro de referência é introduzido e o VAE nativo é usado para codificar informações do quadro anterior, que é diferente de outros modelos que usam codificação CLIP, alcançando assim melhor consistência de conteúdo.
O resultado da otimização é que vídeos longos não possuem mais projeções de cores em grandes áreas, podem se adaptar melhor a instruções complexas e os vídeos gerados são mais dinâmicos e naturais. A equipe também introduziu novos indicadores de avaliação VBLIP-VQA e VUnidet, estendendo pela primeira vez o método de avaliação de geração combinada para a dimensão de vídeo.
Testes experimentais mostram que, em termos de capacidades combinadas de geração de vídeo, o modelo VideoTetris supera todos os modelos de código aberto, até mesmo modelos comerciais como Gen-2 e Pika. É relatado que o código será totalmente de código aberto.
Endereço do projeto: https://top.aibase.com/tool/videotetris
Em suma, a estrutura VideoTetris fez avanços significativos no campo da geração de vídeo complexa, e seu eficiente método de difusão de combinação espaço-temporal e indicadores de avaliação inovadores fornecem uma nova direção para o desenvolvimento da futura tecnologia de geração de vídeo. O código aberto deste projeto também fornece recursos valiosos para mais pesquisadores e promove um maior desenvolvimento neste campo. Esperamos que o VideoTetris possa desempenhar um papel em mais cenários de aplicação no futuro.