Se lanza la versión Step-Video V2 del modelo de generación de video Step Star para admitir la generación precisa de texto básico: artículo de AI

Autor：Eve Cole Fecha de actualización：2025-01-27 05:48:02

Shanghai Step Star Intelligent Technology Co., Ltd. lanzó la versión V2 de su modelo de generación de video Step-Video el 22 de enero de 2025. Esta versión se ha actualizado significativamente en muchos aspectos, como la adopción de un modelo VAE más eficiente y una arquitectura DiT optimizada para mejorar la eficiencia y la calidad de la generación de video. Además, Step-Video V2 también combina un modelo grande de comprensión multimodal de desarrollo propio y una base de conocimiento de video para acercar el video generado al mundo real, y agrega una función básica de generación de texto para expandir aún más los escenarios de aplicación. Esta actualización demuestra la sólida fortaleza técnica de Step Star en el campo de la generación de videos y proporciona herramientas más poderosas para la creación de videos.

El 22 de enero de 2025, Shanghai Step-Video Intelligent Technology Co., Ltd. anunció que su modelo de generación de video Step-Video se actualizó oficialmente a la versión V2. Esta actualización aporta importantes avances tecnológicos y mejoras de funciones, lo que la hace aún más potente para simulaciones del mundo real.

La versión Step-Video V2 ha sido optimizada e innovada en múltiples áreas tecnológicas centrales. En primer lugar, esta versión utiliza un modelo VAE con una relación de compresión más alta. Mediante una compresión eficiente de espacio y tiempo, reduce significativamente la complejidad computacional y mejora la eficiencia de generación al tiempo que garantiza la calidad de la reconstrucción. En segundo lugar, Step-Video V2 optimiza profundamente la arquitectura DiT e introduce algoritmos de aprendizaje por refuerzo para mejorar aún más la fluidez y la expresión detallada de la generación de video. Además, esta versión también combina una base de conocimientos de video y modelos grandes de comprensión multimodal de desarrollo propio, que puede describir con mayor precisión el contenido del video y el lenguaje de la lente, y generar videos que se acercan más al mundo real.

微信截图_20250123090916.png

En aplicaciones prácticas, Step-Video V2 ha demostrado poderosas capacidades de generación de movimiento complejo y puede presentar imágenes dinámicas sin problemas en escenas como ballet, kárate y bádminton. Al mismo tiempo, el modelo captura bien las expresiones humanas y puede presentar con delicadeza las expresiones y los efectos de luces y sombras de personajes reales o ficticios. Además, Step-Video V2 también admite un rico lenguaje de lentes, que incluye empujar, tirar, agitar, desplazar y otros métodos de movimiento, además de cambiar entre diferentes escenas, brindando más posibilidades para la creación de videos.

Vale la pena mencionar que Step-Video V2 ha agregado una función básica de generación de texto, que puede integrar texto de forma natural en el contenido de video, y el efecto de generación es significativamente mejor que el modelo de la generación anterior. La incorporación de esta función amplía aún más los escenarios de aplicación de la generación de vídeo.

Actualmente, Step-Video V2 ha abierto aplicaciones de prueba en la página web de Yuewen (https://yuewen.cn/videos) y los usuarios pueden experimentar esta poderosa y mejorada función.

Esta actualización no solo marca el progreso tecnológico de Step Star en el campo de la generación de videos, sino que también brinda a los creadores herramientas más poderosas para promover la creación de videos a una nueva etapa.

La actualización de Step-Video V2 ha brindado nuevas posibilidades al campo de la creación de videos. Sus potentes funciones y su facilidad de uso brindarán a los usuarios una experiencia de creación de videos más conveniente y eficiente. Vale la pena esperar su futuro desarrollo y aplicación.