A Zhipu AI lançou uma nova geração do modelo de geração de vídeo CogVideoX, cujo núcleo é melhorar significativamente a eficiência e a qualidade da geração de vídeo, marcando o grande avanço da empresa no campo da tecnologia multimodal. CogVideoX alcançou múltiplas inovações em nível técnico e foi aberto aos usuários por meio da plataforma Zhipu Qingyan, fornecendo serviços convenientes de geração de vídeo de IA e interfaces de chamada de API para empresas e desenvolvedores.
A Zhipu AI lançou uma nova geração do modelo de geração de vídeo CogVideoX, marcando outro progresso importante no desenvolvimento de tecnologia multimodal da empresa.
Os principais recursos técnicos do CogVideoX incluem:
Estrutura de autocodificador variacional tridimensional (3D VAE): Esta estrutura desenvolvida independentemente pela Zhipu AI pode compactar os dados de vídeo originais em 2% do tamanho original, reduzindo o custo e a dificuldade de treinamento. Combinado com o módulo de codificação de posição 3D RoPE, melhora a capacidade de capturar relações entre quadros na dimensão temporal e estabelece dependências de longo prazo em vídeos.
Modelo de compreensão de vídeo ponta a ponta: aprimora a capacidade do modelo de compreender texto e seguir instruções, garantindo que o vídeo gerado esteja mais alinhado às necessidades do usuário e possa lidar com instruções imediatas ultralongas e complexas.
Arquitetura transformadora que integra texto, tempo e espaço em três dimensões: Expert Block foi projetado de forma inovadora para alinhar espaços modais de texto e vídeo e otimiza a interação entre modalidades por meio do mecanismo Full Attention.
O modelo CogVideoX foi lançado no PC, aplicativos móveis e miniprogramas de Zhipu Qingyan. Os usuários podem experimentar vídeos gerados por texto de IA e serviços de vídeo gerados por imagens gratuitamente por meio da função "Ying". Os principais recursos do Qingying incluem geração rápida, recursos eficientes de acompanhamento de comandos, coerência de conteúdo e flexibilidade de agendamento de tela.
Além disso, bigmodel.cn, a plataforma aberta para grandes modelos, também implantou o "Qingying", e empresas e desenvolvedores podem usar suas funções por meio de chamadas de API. A Zhipu AI verificou a eficácia da Lei de Dimensionamento no campo da geração de vídeo e continuará a expandir a escala de dados e a escala do modelo, e a pesquisar novas arquiteturas de modelo para compactar informações de vídeo de forma mais eficiente e integrar conteúdo de texto e vídeo de forma mais abrangente.
Endereço da experiência: https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu
O lançamento do CogVideoX não apenas fornece aos usuários uma experiência de geração de vídeo de IA mais conveniente, mas também indica que a tecnologia de geração de vídeo de IA dará início a um novo estágio de desenvolvimento. No futuro, a Zhipu AI continuará a explorar arquiteturas de modelos e soluções técnicas mais avançadas para promover o avanço contínuo da tecnologia de geração de vídeo de IA.