Shanghai Step Star Intelligent Technology Co., Ltd. merilis versi V2 dari model pembuatan video Step-Video pada 22 Januari 2025. Versi ini telah ditingkatkan secara signifikan dalam banyak aspek, seperti mengadopsi model VAE yang lebih efisien dan arsitektur DiT yang dioptimalkan untuk meningkatkan efisiensi dan kualitas pembuatan video. Selain itu, Step-Video V2 juga menggabungkan model besar pemahaman multi-modal yang dikembangkan sendiri dan basis pengetahuan video untuk membuat video yang dihasilkan lebih dekat dengan dunia nyata, dan menambahkan fungsi pembuatan teks dasar untuk lebih memperluas skenario aplikasi. Peningkatan ini menunjukkan kekuatan teknis Step Star yang kuat di bidang pembuatan video dan menyediakan alat yang lebih canggih untuk pembuatan video.
Pada tanggal 22 Januari 2025, Shanghai Step-Video Intelligent Technology Co., Ltd. mengumumkan bahwa model pembuatan videonya Step-Video secara resmi ditingkatkan ke versi V2. Peningkatan ini menghadirkan terobosan teknologi dan peningkatan fitur yang signifikan, menjadikannya lebih canggih untuk simulasi dunia nyata.
Versi Step-Video V2 telah dioptimalkan dan diinovasi di berbagai bidang teknologi inti. Pertama-tama, versi ini menggunakan model VAE dengan rasio kompresi yang lebih tinggi. Melalui kompresi ruang dan waktu yang efisien, versi ini secara signifikan mengurangi kompleksitas komputasi dan meningkatkan efisiensi pembangkitan sekaligus memastikan kualitas rekonstruksi. Kedua, Step-Video V2 mengoptimalkan arsitektur DiT secara mendalam dan memperkenalkan algoritme pembelajaran penguatan untuk lebih meningkatkan kelancaran dan ekspresi detail pembuatan video. Selain itu, versi ini juga menggabungkan model besar pemahaman multi-modal dan basis pengetahuan video yang dikembangkan sendiri, yang dapat mendeskripsikan konten video dan bahasa lensa secara lebih akurat, serta menghasilkan video yang lebih mendekati dunia nyata.
Dalam aplikasi praktis, Step-Video V2 telah menunjukkan kemampuan menghasilkan gerakan kompleks yang kuat, dan dapat dengan lancar menyajikan gambar dinamis dalam adegan seperti balet, karate, dan bulu tangkis. Pada saat yang sama, model tersebut berkinerja baik dalam menangkap ekspresi manusia dan dapat dengan halus menyajikan ekspresi serta efek cahaya dan bayangan dari karakter nyata atau fiksi. Selain itu, Step-Video V2 juga mendukung bahasa lensa yang kaya, termasuk metode dorong, tarik, goyang, geser, dan metode gerakan lainnya, serta beralih di antara pemandangan yang berbeda, memberikan lebih banyak kemungkinan untuk pembuatan video.
Perlu disebutkan bahwa Step-Video V2 telah menambahkan fungsi pembuatan teks dasar, yang secara alami dapat mengintegrasikan teks ke dalam konten video, dan efek pembuatannya jauh lebih baik daripada model generasi sebelumnya. Penambahan fungsi ini semakin memperluas skenario penerapan pembuatan video.
Saat ini, Step-Video V2 telah membuka aplikasi uji coba di halaman web Yuewen (https://yuewen.cn/videos), dan pengguna dapat merasakan fungsi yang ditingkatkan dan canggih ini.
Peningkatan ini tidak hanya menandai kemajuan teknologi Step Star di bidang pembuatan video, namun juga memberikan para pembuat konten alat yang lebih canggih untuk mempromosikan pembuatan video ke tahap baru.
Peningkatan Step-Video V2 telah membawa kemungkinan baru di bidang pembuatan video. Fungsinya yang kuat dan kemudahan penggunaannya akan memberikan pengalaman pembuatan video yang lebih nyaman dan efisien kepada pengguna.