ByteDance, Kuaishou Video AI confronto direto: existem diferenças na compreensão, captura e imaginação

Autor：Eve Cole Data da Última Atualização：2025-02-09 23:48:02

ByteDance e Kuaishou, os dois gigantes dos vídeos curtos, estão enfrentando um confronto direto no campo da IA.

Em 8 de novembro, Dream AI, plataforma de conteúdo de IA de propriedade da ByteDance, anunciou que Seaweed, modelo de geração de vídeo desenvolvido pela ByteDance, está oficialmente aberto aos usuários da plataforma. De acordo com ByteDance, o modelo de geração de vídeo beanbag Seaweed que está aberto para uso desta vez é a versão padrão deste modelo. Leva apenas 60 segundos para gerar um vídeo AI de alta qualidade de 5 segundos, ou seja, 3 a 5 minutos à frente. todos os padrões da indústria nacional Requer tempo de geração.

Os repórteres do "Daily Economic News" realizaram testes reais na primeira e mais recente versão de Jimeng e Keling e descobriram que, após a iteração, os efeitos de geração de vídeo dos dois produtos foram melhorados em muitos aspectos e em graus variados. os detalhes do layout e da imagem são mais precisos e o ajuste do efeito do conteúdo gerado é mais flexível e conveniente; Jimeng tem vantagens no tempo de geração e no estilo do vídeo;

Visual China

Um grande técnico de modelos disse aos repórteres que é difícil para os modelos de geração de vídeo alcançarem diferentes “estilos” de conteúdo de produção “Além da tecnologia, também depende principalmente da riqueza das fontes de dados”.

Conclua múltiplas iterações em um curto período de tempo

Com a abertura do modelo de geração de vídeo desenvolvido pela ByteDance, Seaweed, a dupla mais interessante na competição nacional de modelos de geração de vídeo - Ji Meng e Ke Ling finalmente competiram oficialmente.

Ambos carregam o "plano de realização de sonhos de IA" de compreender o mundo físico e ampliar a imaginação tanto quanto possível enquanto derivam a "realidade". Mas por si próprios, Ji Meng e Ke Ling também assumem as responsabilidades de ByteDance e Kuaishou.

Na verdade, Jimeng e Keling completaram diversas iterações em menos de um ano. Jimeng iniciou os testes internos da função de geração de vídeo no final de março, meio ano depois, a ByteDance lançou dois modelos de geração de vídeo da família de modelos Doubao, Seaweed e Pixeldance, e convidou testes em pequena escala por meio de Jimeng AI e Volcano Engine. Seaweed está aberto aos usuários da plataforma Oficialmente aberta.

Pan Helin, membro do Comitê de Especialistas em Economia da Informação e Comunicação do Ministério da Indústria e Tecnologia da Informação, disse ao repórter do "Daily Economic News" que a velocidade de geração do novo modelo utilizado por Jimeng foi melhorada, proporcionando aos usuários uma melhor experiência de geração. "Jimeng AI está atualmente no campo de geração doméstica., ainda é relativamente líder."

Keling se tornou um sucesso de bilheteria após seu "nascimento" em junho. Desde seu lançamento, passou por mais de dez atualizações, incluindo o lançamento da função de vídeo Tusheng e o lançamento do modelo 1.5. Até agora, Keling tem mais de 3,6 milhões de usuários, gerou um total de 37 milhões de vídeos e lançará oficialmente um aplicativo independente (software aplicativo) em um futuro próximo.

O repórter do "Daily Economic News" selecionou 5 palavras de alerta de vídeo sora anunciadas oficialmente pela OpenAI (senhora nas ruas de Tóquio, astronauta, costa da perspectiva do drone, monstrinho animado em 3D, jovem lendo na nuvem) e as testou separadamente. primeira e mais recente versão de Menghe Keling, compare verticalmente os efeitos de vídeo dos dois modelos de geração de vídeo.

Depois de comparar os efeitos de vídeo produzidos pela versão original de Jimeng e pela versão mais recente, o repórter descobriu que há duas partes nas atualizações de Jimeng que são mais óbvias: uma é que na performance de “pessoas e coisas” dinâmicas, a captura e coerência de os movimentos foram significativamente melhorados; A outra é que a apresentação diferenciada dos estilos de imagem também fez grandes progressos.

Tomando como exemplo "Lady on the Streets of Tokyo", os movimentos dos personagens criados pela primeira geração de Yume eram rígidos, especialmente na captura dos movimentos das pernas e pés, e o efeito geral era borrado e distorcido. A nova versão iterada de Ji Meng tem movimentos de personagem naturais e suaves, e o processamento detalhado da dinâmica dos pés é mais claro e mais alinhado com a lógica do mundo real.

Há uma diferença óbvia entre um sonho e um espírito

Após a iteração dos dois modelos, os efeitos gerados são mais estáveis, a qualidade da imagem é melhor e a suavidade e o processamento de detalhes são mais capazes de resistir ao escrutínio. No entanto, eles ainda apresentam diferenças óbvias na compreensão semântica, na captura e amplificação de palavras-chave e no equilíbrio entre imaginação criativa e relevância criativa.

Comparação horizontal, comparando a versão mais recente do Jimeng e o modelo 1.5 Keling, para comparar a apresentação de 5 palavras de prompt de vídeo Sora. A compreensão da semântica e a captura de palavras-chave diferenciam a apresentação do vídeo de Jimeng e Keling.

No vídeo "Coast from a Drone Perspective", Ji Meng desfocou relativamente a "ilha com um farol" na palavra inicial, e fosse Ke Ling ou Sora, o foco desta cena era "Ilha". Na descrição de “Rodovia Costeira”, o cenário do sonho não se enquadra na lógica do mundo real.

No efeito de vídeo de “Astronauta”, Ji Meng não descreveu a “aventura” na descrição. Após a regeneração, o astronauta segurando um café e andando de motocicleta também ignorou o cenário de “aventura”. Ke Ling enfatiza a “aventura” através das expressões dos personagens e movimentos de câmera. No entanto, tanto Ji Meng quanto Ke Ling ignoraram relativamente o cenário do “trailer do filme”. Em contraste, o vídeo “Spaceman” de Sora tem uma sensação mais cinematográfica.

Na geração de vídeo "monstrinho animado em 3D", o cenário do monstrinho de Ji Meng é quase o mesmo do personagem "Sally" no filme de animação "Monsters, Inc." A descrição do monstrinho nas palavras prontas, ou seja, a apresentação do sonho, também é relativamente imprecisa, como a implementação do cenário “cabelo curto”. Além disso, em termos de apresentação do estilo artístico, as palavras imediatas enfatizam “iluminação e textura”, ou seja, a execução dos sonhos é mais fraca que a de Ke Ling.

No vídeo "Lady on the Streets of Tokyo", o desempenho de Ji Meng na apresentação de interações complexas com vários assuntos é ruim em comparação com o de Ke Ling. Tanto a "senhora" que é o tema da imagem quanto a descrição do espaço são relativamente precisas, mas os pedestres na imagem geralmente ficam desfocados e os pedestres em close-up estão distorcidos.

No entanto, Jimeng AI revelou oficialmente que as versões Pro dos modelos de geração de vídeo Seaweed e Pixeldance estarão disponíveis para uso em um futuro próximo. O modelo da versão Pro otimizará a interação multi-assuntos e a coerência das ações multi-shot, ao mesmo tempo que supera problemas como a consistência da troca multi-shot.

Em termos de função e experiência, após várias rodadas de iterações, Keling fez ajustes nos parâmetros “imaginação criativa e relevância criativa” ao gerar vídeos, para que ajustes de equilíbrio possam ser feitos. Ke Ling também pode definir conteúdo que você não deseja apresentar, como desfoque, colagem, transformação, animação, etc. A operação de geração é mais flexível e o efeito pode ser ajustado.

Após o teste, o tempo de geração do vídeo dos sonhos é menor. O tempo de geração do vídeo das 5 palavras de alerta de Sora não excede meio minuto cada. No entanto, são necessários mais de 10 minutos para gerar um vídeo de alta qualidade de 10 segundos com o modelo 1.5.

Deve-se notar que os vídeos acima mencionados gerados por Jimeng e Keling foram testados e gerados por repórteres. Diferentes versões e detalhes de descrição causarão diferenças nos efeitos de geração do vídeo.

Uma batalha no campo da geração de vídeos com IA

Para os dois gigantes de vídeos curtos ByteDance e Kuaishou, seus oponentes no campo da geração de vídeos de IA são muito mais do que apenas um ao outro.

Por exemplo, em 8 de novembro, Zhipu, um dos “Seis Pequenos Dragões da IA”, atualizou sua ferramenta de geração de vídeo Qingying. O Qingying atualizado suporta geração de vídeo a partir de imagens de qualquer proporção e possui recursos de geração multicanal. O mesmo comando ou imagem pode gerar 4 vídeos ao mesmo tempo. Além disso, Qingying pode gerar efeitos sonoros que correspondem à imagem. Esta função de efeito sonoro será lançada em versão beta pública este mês.

Anteriormente, em 31 de agosto, a MiniMax lançou sua primeira tecnologia de modelo de geração de vídeo de alta definição com IA, abab-video-1, que recebeu relatórios frequentes no primeiro mês de seu lançamento. De acordo com a conta pública oficial do MiniMax, no primeiro mês após o lançamento do modelo de vídeo no Conch AI, o número de visitas à versão web do Conch AI aumentou mais de 800%. Os usuários cobrem mais de 180 países e regiões ao redor do mundo, e o produto ficou em primeiro lugar na lista de produtos de IA (web) em setembro. Ele ocupa o primeiro lugar na lista de taxas de crescimento global e na lista de taxas de crescimento domésticas.

Wang Peng, pesquisador associado do Instituto de Gestão da Academia de Ciências Sociais de Pequim, apontou ao repórter do "Daily Economic News" que os produtos de vídeo de IA no país e no exterior estão atualmente em um estágio de rápido desenvolvimento e tecnologia estrangeira gigantes como Meta e Google estão implantando ativamente no campo de vídeo de IA no mercado interno, Kuaishou Keling, Jimeng AI e outros produtos também estão sendo constantemente atualizados de forma iterativa para melhorar a experiência do usuário e as capacidades de comercialização;

Em termos de possibilidades de comercialização, um relatório de pesquisa divulgado pela Soochow Securities em agosto deste ano mencionou que, sob a suposição neutra de uma taxa de penetração de IA de 15%, o espaço potencial para a indústria de geração de vídeo de IA da China é de 317,8 bilhões de yuans; os custos de produção de filmes, longas-metragens, desenhos animados e curtas serão reduzidos em mais de 95% em relação ao modelo tradicional.

O enorme tamanho potencial do mercado e o “superpoder” de redução de custos e aumento de eficiência também podem ser vislumbrados nos dados de uso de Keling.

Na "2024 China Computer Conference" realizada em outubro, Zhang Di, vice-presidente da Kuaishou e chefe da grande equipe de modelos, revelou que desde seu lançamento em junho deste ano, Kuaishou Keling AI tem mais de 3,6 milhões de usuários e gerou um total de 37 milhões de vídeos e mais de 100 milhões de imagens.

Pan Helin disse em entrevista a um repórter do "Daily Economic News" que Keling é apoiado por Kuaishou e tem suporte de tráfego, então o processo de comercialização é muito rápido "Os produtos de vídeo de IA ainda precisam ser apoiados pela plataforma da Internet. Somente com. tráfego eles podem ter potencial comercial." ".

Da mesma forma, a ByteDance também colocou a comercialização de modelos de vídeo na vanguarda de sua lista de tarefas. Quando dois modelos de geração de vídeo foram lançados em setembro deste ano, Tan Dai, presidente da Volcano Engine, declarou publicamente que o novo modelo de geração de vídeo beanbag "está considerando a comercialização desde o seu lançamento. As áreas de uso incluem marketing de comércio eletrônico e animação". educação e turismo cultural urbano e micro-roteiros.

"O vídeo de IA mostrará diferentes potenciais de comercialização no lado B e no lado C." Wang Peng acredita que, para o lado B, o vídeo de IA pode fornecer às empresas soluções de produção e distribuição de vídeo mais eficientes e de baixo custo no lado C; Por outro lado, o vídeo de IA pode atender às necessidades dos usuários por conteúdo de vídeo personalizado e de alta qualidade e também pode ser combinado com comércio eletrônico, publicidade e outros setores para obter marketing e monetização mais precisos.