O byte batendo lançando um novo sistema de IA Omnihuman, que pode gerar vídeos realistas de corpo inteiro com base em fotos únicas para mostrar os discursos, canto e ações naturais dos personagens. Essa tecnologia integra uma variedade de insumos, como texto, áudio e movimentos humanos, e adota o método de treinamento de "condição completa" para aprender com dados maciços. O surgimento de Omnihuman indica que o campo de entretenimento e comunicação digital inaugurará novas mudanças, trazendo possibilidades ilimitadas de criação de vídeo, produção de conteúdo educacional e comunicação digital.
Omnihuman é capaz de gerar vídeos de corpo inteiro para mostrar os gestos e dinâmicos dos personagens quando eles falam, superando os modelos de IA que só podem simular facial ou parte superior do corpo. O núcleo dessa tecnologia é que ela combina uma variedade de insumos, como texto, áudio e movimentos humanos.
A equipe de pesquisa apontou que Omnihuman mostrou um progresso significativo após mais de 18.700 horas de treinamento de dados de vídeo humano. Ao introduzir vários sinais condicionais (como texto, áudio e postura), essa tecnologia não apenas melhora a qualidade da geração de vídeo, mas também reduz efetivamente o desperdício de dados.
Os pesquisadores mencionados em um artigo publicado em Arxiv que, embora a tecnologia final -end -end da animação humana tenha feito um progresso significativo nos últimos anos, os métodos existentes ainda têm limitações na expansão da escala de aplicativos.
Omnihuman tem uma ampla gama de potencial de aplicação e pode ser usado para fazer vídeos de fala, demonstrar performances instrumentais, etc. Após o teste, essa tecnologia é melhor que o sistema existente em vários benchmarks de qualidade, mostrando seu excelente desempenho. Esse desenvolvimento apareceu no contexto de aumento da concorrência entre a tecnologia de geração de vídeo de IA, e empresas como Google, Meta e Microsoft também estão perseguindo ativamente tecnologias semelhantes.
No entanto, embora Omnihuman traga a possibilidade de mudanças na produção de entretenimento, criação de conteúdo educacional e comunicação digital, ela também despertou preocupações sobre o potencial uso indevido de mídia sintética. A equipe de pesquisa apresentará seus resultados de pesquisa em uma próxima conferência de visão computacional, embora o tempo e a reunião específicos ainda não tenham sido anunciados.
Tese: https://arxiv.org/pdf/2502.01061
Pontos:
Omnihuman é um novo tipo de IA que pode transformar fotos únicas em vídeos de corpo inteiro realistas.
Após 18.700 horas de treinamento de dados de vídeo humano, essa tecnologia combina uma variedade de sinais de entrada para melhorar o efeito gerador.
Apesar do extenso potencial de aplicação, também despertou preocupações sobre a possibilidade de meios sintéticos.
O avanço da tecnologia omnihumana estabeleceu novos parâmetros de referência para o campo da geração de vídeo da IA, mas, ao mesmo tempo, também precisa prestar atenção em seus riscos éticos em potencial. usado razoavelmente e evite impactos negativos. Ansioso por mais aplicações e resultados de pesquisa sobre omnihuman no futuro.