22 января 2025 года компания Shanghai Step Star Intelligent Technology Co., Ltd. выпустила версию V2 своей модели генерации видео Step-Video. Эта версия была значительно обновлена во многих аспектах, таких как использование более эффективной модели VAE и оптимизированной архитектуры DiT для повышения эффективности и качества генерации видео. Кроме того, Step-Video V2 также сочетает в себе самостоятельно разработанную мультимодальную базу знаний для понимания больших моделей и видео, чтобы сделать сгенерированное видео ближе к реальному миру, а также добавляет базовую функцию генерации текста для дальнейшего расширения сценариев применения. Это обновление демонстрирует сильные технические возможности Step Star в области создания видео и предоставляет более мощные инструменты для создания видео.
22 января 2025 года компания Shanghai Step-Video Intelligent Technology Co., Ltd. объявила, что ее модель генерации видео Step-Video была официально обновлена до версии V2. Это обновление приносит значительные технологические прорывы и улучшения функций, делая его еще более эффективным для моделирования реальных ситуаций.
Версия Step-Video V2 была оптимизирована и обновлена во многих основных технологических областях. Прежде всего, в этой версии используется модель VAE с более высокой степенью сжатия. За счет эффективного сжатия пространства и времени значительно снижается вычислительная сложность и повышается эффективность генерации, обеспечивая при этом качество реконструкции. Во-вторых, Step-Video V2 глубоко оптимизирует архитектуру DiT и вводит алгоритмы обучения с подкреплением для дальнейшего повышения плавности и детализации генерации видео. Кроме того, эта версия также сочетает в себе самостоятельно разработанную мультимодальную базу знаний по большим моделям и видео, которая может более точно описывать видеоконтент и язык линз, а также создавать видео, более близкие к реальному миру.
В практическом применении Step-Video V2 продемонстрировал мощные возможности создания сложных движений и может плавно представлять динамические изображения в таких сценах, как балет, каратэ и бадминтон. В то же время модель хорошо передает выражения лиц людей и может деликатно передавать выражения лиц, а также эффекты света и тени реальных или вымышленных персонажей. Кроме того, Step-Video V2 также поддерживает богатый язык объективов, включая толкание, вытягивание, встряхивание, сдвиг и другие методы движения, а также переключение между различными сценами, предоставляя больше возможностей для создания видео.
Стоит отметить, что в Step-Video V2 добавлена базовая функция генерации текста, которая может естественным образом интегрировать текст в видеоконтент, а эффект генерации значительно лучше, чем у модели предыдущего поколения. Добавление этой функции еще больше расширяет сценарии применения генерации видео.
В настоящее время Step-Video V2 открыл пробные приложения на веб-странице Yuewen (https://yuewen.cn/videos), и пользователи могут воспользоваться этой обновленной и мощной функцией.
Это обновление не только отмечает технологический прогресс Step Star в области создания видео, но и предоставляет создателям более мощные инструменты для продвижения создания видео на новый этап.
Обновление Step-Video V2 открыло новые возможности в области создания видео. Его мощные функции и простота использования сделают создание видео более удобным и эффективным. Стоит с нетерпением ждать его дальнейшего развития и применения.