A versão Step-Video V2 do modelo de geração de vídeo step star é lançada para oferecer suporte à geração precisa de texto básico - artigo AI

Autor：Eve Cole Data da Última Atualização：2025-01-27 05:48:02

Shanghai Step Star Intelligent Technology Co., Ltd. lançou a versão V2 de seu modelo de geração de vídeo Step-Video em 22 de janeiro de 2025. Esta versão foi significativamente atualizada em muitos aspectos, como a adoção de um modelo VAE mais eficiente e uma arquitetura DiT otimizada para melhorar a eficiência e a qualidade da geração de vídeo. Além disso, Step-Video V2 também combina um grande modelo de compreensão multimodal autodesenvolvido e uma base de conhecimento de vídeo para tornar o vídeo gerado mais próximo do mundo real e adiciona uma função básica de geração de texto para expandir ainda mais os cenários de aplicação. Esta atualização demonstra a forte força técnica da Step Star na área de geração de vídeo e fornece ferramentas mais poderosas para criação de vídeo.

Em 22 de janeiro de 2025, a Shanghai Step-Video Intelligent Technology Co., Ltd. anunciou que seu modelo de geração de vídeo Step-Video foi oficialmente atualizado para a versão V2. Esta atualização traz avanços tecnológicos significativos e melhorias de recursos, tornando-o ainda mais poderoso para simulações do mundo real.

A versão Step-Video V2 foi otimizada e inovada em diversas áreas tecnológicas principais. Em primeiro lugar, esta versão utiliza um modelo VAE com maior taxa de compressão. Através da compressão eficiente do espaço e do tempo, reduz significativamente a complexidade computacional e melhora a eficiência da geração, garantindo ao mesmo tempo a qualidade da reconstrução. Em segundo lugar, o Step-Video V2 otimiza profundamente a arquitetura DiT e introduz algoritmos de aprendizagem por reforço para melhorar ainda mais a suavidade e a expressão detalhada da geração de vídeo. Além disso, esta versão também combina um grande modelo de compreensão multimodal autodesenvolvido e uma base de conhecimento de vídeo, que pode descrever com mais precisão o conteúdo do vídeo e a linguagem da lente, e gerar vídeos mais próximos do mundo real.

微信截图_20250123090916.png

Em aplicações práticas, o Step-Video V2 demonstrou poderosas capacidades de geração de movimentos complexos e pode apresentar imagens dinâmicas suavemente em cenas como balé, caratê e badminton. Ao mesmo tempo, o modelo tem um bom desempenho na captura de expressões humanas e pode apresentar com delicadeza as expressões e efeitos de luz e sombra de personagens reais ou fictícios. Além disso, o Step-Video V2 também suporta uma linguagem de lente rica, incluindo empurrar, puxar, agitar, deslocar e outros métodos de movimento, bem como alternar entre diferentes cenas, proporcionando mais possibilidades para a criação de vídeo.

Vale ressaltar que Step-Video V2 adicionou uma função básica de geração de texto, que pode integrar texto naturalmente ao conteúdo de vídeo, e o efeito de geração é significativamente melhor do que o modelo da geração anterior. A adição desta função amplia ainda mais os cenários de aplicação de geração de vídeo.

Atualmente, o Step-Video V2 abriu aplicativos de teste na página da Web Yuewen (https://yuewen.cn/videos) e os usuários podem experimentar esta função atualizada e poderosa.

Esta atualização não apenas marca o progresso tecnológico da Step Star no campo da geração de vídeo, mas também fornece aos criadores ferramentas mais poderosas para levar a criação de vídeo a um novo estágio.

A atualização do Step-Video V2 trouxe novas possibilidades para o campo da criação de vídeo. Suas funções poderosas e facilidade de uso trarão aos usuários uma experiência de criação de vídeo mais conveniente e eficiente.