정확한 기본 텍스트 생성을 지원하는 스텝스타 비디오 생성 모델의 Step-Video V2 버전 출시 - AI 기사

저자：Eve Cole 업데이트 시간：2025-01-27 05:48:02

Shanghai Step Star Intelligent Technology Co., Ltd.는 2025년 1월 22일에 비디오 생성 모델 Step-Video의 V2 버전을 출시했습니다. 이번 버전은 보다 효율적인 VAE 모델과 최적화된 DiT 아키텍처를 채택하여 비디오 생성의 효율성과 품질을 향상시키는 등 여러 측면에서 대폭 업그레이드되었습니다. 또한 Step-Video V2는 자체 개발한 다중 모드 이해 대형 모델과 비디오 지식 기반을 결합하여 생성된 비디오를 실제 세계에 더 가깝게 만들고 기본 텍스트 생성 기능을 추가하여 응용 시나리오를 더욱 확장합니다. 이번 업그레이드는 비디오 생성 분야에서 Step Star의 강력한 기술력을 입증하고 비디오 제작을 위한 더욱 강력한 도구를 제공합니다.

2025년 1월 22일, Shanghai Step-Video Intelligent Technology Co., Ltd.는 비디오 생성 모델인 Step-Video가 공식적으로 V2 버전으로 업그레이드되었다고 발표했습니다. 이번 업그레이드는 획기적인 기술 혁신과 기능 개선을 가져오며 실제 시뮬레이션을 더욱 강력하게 만들어줍니다.

Step-Video V2 버전은 여러 핵심 기술 영역에서 최적화되고 혁신되었습니다. 우선, 이 버전은 압축률이 더 높은 VAE 모델을 사용하여 공간과 시간의 효율적인 압축을 통해 계산 복잡성을 크게 줄이고 생성 효율성을 향상시키는 동시에 재구성 품질을 보장합니다. 둘째, Step-Video V2는 DiT 아키텍처를 심층적으로 최적화하고 강화 학습 알고리즘을 도입하여 비디오 생성의 부드러움과 세밀한 표현을 더욱 향상시킵니다. 또한 이 버전은 자체 개발한 다중 모드 이해 대형 모델과 비디오 지식 기반을 결합하여 비디오 내용과 렌즈 언어를 보다 정확하게 설명하고 현실 세계에 더 가까운 비디오를 생성할 수 있습니다.

微信截图_20250123090916.png

실제 응용 분야에서 Step-Video V2는 강력하고 복잡한 모션 생성 기능을 입증했으며 발레, 가라데, 배드민턴과 같은 장면에서 역동적인 이미지를 원활하게 표현할 수 있습니다. 동시에 이 모델은 인간의 표정을 잘 포착하고 실제 또는 가상의 인물의 표정과 빛 및 그림자 효과를 섬세하게 표현할 수 있습니다. 또한 Step-Video V2는 밀기, 당기기, 흔들기, 이동 및 기타 이동 방법을 포함한 풍부한 렌즈 언어를 지원하고 다양한 장면 간 전환을 지원하여 비디오 제작에 더 많은 가능성을 제공합니다.

Step-Video V2에는 기본 텍스트 생성 기능이 추가되어 자연스럽게 비디오 콘텐츠에 텍스트를 통합할 수 있으며, 생성 효과가 이전 세대 모델보다 훨씬 좋아졌습니다. 이 기능을 추가하면 비디오 생성의 적용 시나리오가 더욱 확장됩니다.

현재 Step-Video V2는 Yuewen 웹페이지(https://yuewen.cn/videos)에 평가판 애플리케이션을 오픈했으며 사용자는 이 업그레이드되고 강력한 기능을 경험할 수 있습니다.

이번 업그레이드는 비디오 생성 분야에서 Step Star의 기술적 진보를 나타낼 뿐만 아니라 제작자에게 비디오 제작을 새로운 단계로 촉진할 수 있는 더욱 강력한 도구를 제공합니다.

Step-Video V2의 업그레이드는 비디오 제작 분야에 새로운 가능성을 가져왔습니다. 강력한 기능과 사용 용이성은 사용자에게 더욱 편리하고 효율적인 비디오 제작 경험을 선사할 것입니다. 향후 개발 및 적용을 기대할 가치가 있습니다.