Desde o nascimento do sora, que inaugurou uma nova era de vídeo de IA, grandes players nacionais e estrangeiros aderiram sucessivamente à competição de vídeo de IA. Mas à medida que entramos nesta nova era de vídeos mais interativos e imersivos, como abordamos os desafios de custo, qualidade e desempenho?
Em 15 de outubro, Volcano Engine e Intel lançaram em conjunto uma solução de pré-processamento de vídeo de treinamento de grande modelo na Video Cloud Technology Conference. Um repórter do "Daily Economic News" soube na conferência de imprensa que esta solução técnica foi aplicada ao modelo de geração de vídeo do bean bag.
Na conferência de imprensa, Li Hang, chefe da Bytedance Research, apresentou que o modelo de geração de vídeo Doubao PixelDance adotou a solução de pré-processamento de vídeo de treinamento de modelo grande do Volcano Engine durante o processo de treinamento, aproveitando ao máximo um grande número de recursos de maré e fornecendo forte suporte para treinamento de modelo.
Além disso, Wang Yue, chefe da arquitetura de vídeo do Grupo Douyin, revelou o mais recente progresso do chip codec de vídeo desenvolvido pela Byte: verificado pela prática interna do Grupo Douyin, este chip economiza mais de 95% do custo sob a mesma compressão de vídeo eficiência.
"Em primeiro lugar, o conjunto de dados de treinamento de vídeo em grande escala levou a um aumento nos custos de computação e processamento." Wang Yue destacou que os grandes fabricantes de modelos enfrentam muitos desafios no processo de pré-processamento. os dados de amostra são desiguais e há muitos links de processamento. O projeto é complexo e, finalmente, enfrenta o agendamento e a implantação de vários recursos de computação heterogêneos, como GPU, CPU e ARM.
Estrutura de processamento multimídia autodesenvolvida
No Volcano Engine AI Innovation Tour em 24 de setembro, dois grandes modelos de geração de vídeo de beanbag, PixelDance e Seaweed, foram lançados juntos, atraindo a atenção de pessoas dentro e fora da indústria. Na verdade, os esforços da ByteDance em modelos de geração de vídeo não param por aí.
Em 15 de outubro, a Volcano Engine lançou uma solução de pré-processamento de vídeo de treinamento de modelos grandes, dedicada a resolver desafios técnicos de custo, qualidade e desempenho de treinamento de modelos grandes de vídeo.
Segundo relatos, o pré-processamento de vídeos de treinamento é um pré-requisito importante para garantir o efeito do treinamento de grandes modelos. O processo de pré-processamento pode unificar o formato dos dados do vídeo, melhorar a qualidade dos dados, padronizar os dados, reduzir a quantidade de dados e processar informações de anotação, para que o modelo possa aprender os recursos e o conhecimento do vídeo com mais eficiência e melhorar o treinamento. efeito e eficiência.
No treinamento de modelos de geração de vídeo, o custo do poder computacional é sem dúvida o desafio número um.
Um engenheiro de algoritmo de um modelo de geração de vídeo doméstico disse em entrevista a um repórter do "Daily Economic News" que, com dados de alta qualidade, os modelos de vídeo serão mais difíceis de treinar do que os modelos de linguagem grande e exigirão mais poder de computação "Atualmente. , Os modelos de vídeo de código aberto conhecidos não são particularmente grandes, principalmente porque muitos modelos de vídeo estão atualmente em um estágio em que não sabem como usar os dados e não há muitos dados de alta qualidade (para treinamento)."
A pesquisa do cientista da computação Matthias Plappert também mostra que o treinamento do Sora requer um enorme poder de computação. No processo de treinamento, leva cerca de 1 mês para treinar em 4.200 a 10.500 Nvidia H100. Quando o modelo é gerado e atinge o estágio de inferência, a computação. o custo aumentará rapidamente após a sessão de treinamento.
Para resolver o problema de redução de custos, o Volcano Engine conta com a CPU da Intel e outros recursos para contar com sua solução de pré-processamento de vídeo de treinamento de modelo grande em sua estrutura de processamento multimídia autodesenvolvida. Wang Yue disse que a solução também foi otimizada em termos de algoritmos e engenharia e pode realizar pré-processamento de alta qualidade de dados de vídeo massivos, alcançar colaboração eficiente de links de processamento em um curto espaço de tempo e melhorar a eficiência do treinamento do modelo.
Relativamente à aplicação desta solução, Li Hang revelou em conferência de imprensa que o modelo de geração de vídeo beanbag PixelDance adoptou esta solução durante o processo de formação. Ao mesmo tempo, a solução sob demanda fornecida pela equipe do Volcano Engine Video Cloud também oferece um serviço completo para todo o ciclo de vida dos vídeos produzidos pela PixelDance, desde a edição, upload, transcodificação, distribuição e reprodução, garantindo o aplicação comercial do modelo.
Além disso, nesta conferência, o Volcano Engine também lançou uma solução de transmissão ao vivo simultânea em vários idiomas, uma solução de geração e compreensão de vídeo multimodal, uma solução de interação em tempo real com IA conversacional e uma solução AIG3D e de reconstrução de cena grande. final da produção do vídeo, do final interativo ao consumidor final, todo o link integra recursos de IA.
Para onde vai o vídeo de IA?
A IA está a remodelar a forma como as pessoas produzem, divulgam e recebem informação em todos os aspectos. Entre elas, as novas tecnologias de vídeo emergentes trouxeram as pessoas do mundo dos dados suaves e de alta definição para o mundo da IA com experiências mais inteligentes e interativas.
Em julho deste ano, SenseTime lançou o Vimi, o primeiro modelo de geração de vídeo de caracteres grandes controláveis para usuários finais C; em agosto, MiniMax lançou o modelo de geração de vídeo video-1, Keling AI completou sua nona iteração e lançou "KeLing 1.5; modelo", Alibaba Cloud lançou um novo modelo de geração de vídeo na Conferência Yunqi, e a Byte também lançou 2 modelos de geração de vídeo. O nascimento e a iteração de produtos de vídeo de IA levam quase meses.
Em relação à "explosão" dos produtos de vídeo de IA, Wang Peng, pesquisador associado da Academia de Ciências Sociais de Pequim, disse em entrevista a um repórter do "Daily Economic News" que os produtos de vídeo de IA domésticos estão em um estágio de rápido desenvolvimento e iteração contínua, principalmente devido à forte demanda do mercado e ampla gama de cenários de aplicação e diversos modelos de comercialização.
Atualmente, os produtos de vídeo de IA no mercado são implementados principalmente nas áreas de cinema e televisão, marketing de comércio eletrônico e outras áreas. Por exemplo, em julho deste ano, Jimeng AI e Bona Pictures cooperaram para lançar o primeiro AIGC contínuo generativo do país. série narrativa de ficção científica "Sanxingdui: Future Enlightenment" "Record"; em setembro deste ano, Kuaishou se uniu a nove diretores conhecidos, incluindo Jia Zhangke e Li Shaohong, para lançar o projeto de cocriação do diretor "Keling AI".
Pan Helin, membro do Comitê de Especialistas em Economia da Informação e Comunicação do Ministério da Indústria e Tecnologia da Informação, apontou ao repórter do "Daily Economic News" que alguns produtos de vídeo de IA estão agora em fase de introdução e são difíceis de implementar no mercado devido à tecnologia ou conformidade. "Atualmente, parece que o código aberto (produtos de vídeo de IA) é mais popular do que os de código fechado porque o custo da geração de vídeo de IA é alto e os produtores de vídeo muitas vezes não têm fundos, portanto, usam o software aberto. algoritmos de IA de origem baixados para o terminal podem produzir e gerar vídeos melhor."
Na sua opinião, os produtos de vídeo de IA nesta fase enfrentam principalmente dois obstáculos: poder de computação e riscos de conformidade. "Algoritmos, poder de computação e dados exigem que as empresas invistam mais recursos e tempo; outra dificuldade reside nos riscos de conformidade. Hoje em dia, cada vez mais atenção é dada à privacidade. A conformidade é um tópico inevitável, e os vídeos de IA podem, às vezes, uma invasão de pessoal privacidade”, explicou ele.
Além disso, Chen Chen, parceiro de pesquisa de análise da Analysys, também expressou preocupação sobre a capacidade de monetização de curto prazo de grandes modelos de geração de vídeo em uma entrevista com um repórter do "Daily Economic News" "Devido ao alto treinamento de modelos e custos de inferência de grandes IA". modelos, juntamente com a demanda dos usuários do lado C por ferramentas de IA é relativamente dispersa e sua disposição de pagar é insuficiente. A comercialização de grandes modelos de vídeo no mercado C-end ainda enfrentará um longo período de cultivo.
A era do vídeo de IA chegou, mas como reduzir custos, aumentar a eficiência e conquistar mais mercados também se tornará uma proposta importante enfrentada pelas principais empresas de Internet e de tecnologia.