A Meta fez uma parceria com a Universidade de Tecnologia de King Abdullah (KAUST) na Arábia Saudita para lançar uma nova série de modelos de difusão de vídeo chamados Mardini. Esse modelo pode concluir com eficiência uma variedade de tarefas de geração de vídeo, incluindo interpolação de vídeo, conversão de imagem para vídeo e expansão de vídeo, simplificando bastante o processo de criação de vídeo de alta qualidade. A Mardini usa uma combinação de modelos de planejamento e modelos generativos para gerar vídeos de alta qualidade com menos etapas através dos métodos de máscara e processos de difusão, mostrando vantagens significativas em desempenho e eficiência, fornecendo aos criadores de vídeo ferramentas poderosas e definir novos benchmarks da indústria.
Com base no ano passado, a Meta fez esforços ainda mais no campo da geração de vídeos de IA. Anteriormente, lançava modelos de texto para vídeo e edição, como o UME Video e o Emu Edit. Este ano, o filme Avançado de Editor de Video Gen também foi lançado. Isso mostra que a Meta está comprometida em fornecer aos criadores de vídeo ferramentas mais poderosas.
O poder da Mardini é que ele pode gerar vídeos com base em qualquer número de quadros mascarados e suporta uma variedade de tarefas de geração, como interpolação de vídeo, conversão de imagem para vídeo e expansão de vídeo.
Imagem para resultados de vídeoEntre eles, o principal aplicativo da Mardini é a geração de imagem para vídeo. Esse recurso é demonstrado usando um quadro de referência colocado no meio como uma entrada condicional e gerando 16 quadros adicionais. No exemplo oficial de vídeo gerado, 17 quadros renderizados em 8fps podem ser gerados para um vídeo suave de 2 segundos.
Resultados de extensão de vídeoA Mardini também permite expandir seu vídeo ajustando os vídeos existentes por qualquer período de tempo. Adicionamos 12 novos quadros a cada sequência, gerando uma extensão de 2 segundos a partir de um vídeo de referência de 5 quadros.
Resultados de interpolação em vídeoA Mardini implementa a interpolação de vídeo gerando quadros intermediários usando os primeiros e os últimos quadros como sinais de ajuste. Quando esses quadros de limite são os mesmos, a Mardini pode criar vídeos de loops perfeitos.
Como o Mardini funciona é muito interessante. Ele adota tecnologia avançada e eficiente de geração de vídeo, composta principalmente por duas partes: modelo de planejamento e modelo generativo. Primeiro, o modelo de planejamento usa o método Mask AutoRegression (MAR) para interpretar quadros de entrada de baixa resolução, gerando sinais de orientação para os quadros que precisam ser criados. O modelo generativo leve gera quadros detalhados de alta resolução através do processo de difusão, garantindo que o vídeo final seja suave e visualmente bom.
Ao contrário de muitos modelos de vídeo que exigem modelos de imagem pré-treinados complexos, a Mardini afirma ser treinada do zero usando dados de vídeo não marcados. Isso ocorre porque adota uma estratégia de treinamento progressiva, que permite que o modelo lide melhor com diferentes configurações de quadros, ajustando flexivelmente o método de mascaramento dos quadros durante o treinamento.
Uma característica distinta do Mardini é sua flexibilidade e desempenho. Não é apenas poderoso, mas também eficiente, adequado para tarefas maiores. Esse modelo pode lidar com uma variedade de tarefas, como interpolação de vídeo, geração de imagem para vídeo e expansão de vídeo, seja suavizando clipes de vídeo existentes ou criando uma sequência completa do zero.
Em termos de desempenho, a Mardini define novos benchmarks para gerar vídeo de alta qualidade com menos etapas, o que o torna mais em termos de custo e tempo do que alternativas mais complexas. "Nossa pesquisa mostra que nossa estratégia de modelagem demonstra competitividade em uma variedade de referências de interpolação e animação, reduzindo a demanda computacional em escalas de parâmetros comparáveis", observou o artigo de pesquisa oficial.
Entrada do projeto: https://mardini- vidgen.github.io/
Pontos -chave:
A Mardini é um modelo de geração de vídeo de nova geração lançado pela Meta e Kaust, que pode facilmente concluir uma variedade de tarefas de criação de vídeo.
Este modelo atinge a interpolação de vídeo eficiente e a geração de imagem para vídeo através da combinação de modelos de planejamento e geração.
A Mardini gera vídeos de alta qualidade com menos etapas, melhorando significativamente a flexibilidade e a eficiência da criação.
Em suma, o surgimento de Mardini marca um avanço significativo na tecnologia de geração de vídeos, com seu desempenho eficiente e cenários de aplicativos flexíveis, trazendo novas possibilidades ao campo da criação de vídeo. No futuro, a Mardini pode desempenhar um papel maior na produção de filmes, produção de animação e outras áreas que exigem geração de vídeo.