오늘날 AI 기술의 급속한 발전과 함께 영상 생성 기술도 상당한 발전을 이루었습니다. Downcodes의 편집자는 텍스트 설명을 통해 고품질 비디오를 자동으로 생성할 수 있는 혁신적인 모델인 Snap Video를 소개합니다. 기존 비디오 생성 기술의 병목 현상을 극복하고 보다 효율적이고 현실적이며 확장 가능한 비디오 제작 경험을 제공합니다. Snap Video는 기술 혁신을 이룰 뿐만 아니라 사용자 경험을 최적화하여 사용자에게 비디오 제작에 전례 없는 편의성을 제공합니다.
디지털 미디어 시대에 비디오는 우리가 자신을 표현하고 이야기를 공유하는 주요 방법이 되었습니다. 그러나 고품질 비디오를 제작하려면 전문적인 기술과 값비싼 장비가 필요한 경우가 많습니다. 이제 스냅비디오를 이용하면 원하는 장면을 텍스트로 설명하기만 하면 자동으로 영상이 생성됩니다.
현재의 이미지 생성 모델은 놀라운 품질과 다양성을 보여주었습니다. 이에 영감을 받아 연구자들은 이러한 모델을 비디오 생성에 적용하기 시작했습니다. 그러나 비디오 콘텐츠의 중복성이 높기 때문에 이미지 모델을 비디오 생성 분야에 직접 적용하게 되므로 진정성, 시각적 품질 및 동작의 확장성이 저하됩니다.
Snap Video는 이러한 문제를 체계적으로 해결하는 비디오 중심 모델입니다. 첫째, EDM 프레임워크를 확장하여 공간과 시간의 중복 픽셀을 고려하여 자연스럽게 비디오 생성을 지원합니다. 둘째, U-Net 대비 훈련 속도는 3.31배, 추론 속도는 4.5배 빠른 새로운 변환기 기반 아키텍처를 제안합니다. 이를 통해 Snap Video는 수십억 개의 매개변수를 사용하여 텍스트-비디오 모델을 효율적으로 훈련하고, 처음으로 최첨단 결과를 달성하며, 더 높은 품질, 시간적 일관성 및 상당한 모션 복잡성을 갖춘 비디오를 생성할 수 있습니다.
기술적인 하이라이트:
공동 시공간 모델링: Snap Video는 대규모 텍스트-비디오 생성기의 의미론적 제어를 유지하면서 대규모 모션으로 일관된 비디오를 합성할 수 있습니다.
고해상도 비디오 생성: 2단계 캐스케이드 모델을 사용하여 먼저 저해상도 비디오를 생성한 다음 고해상도 업샘플링을 수행하여 잠재적인 시간적 불일치 문제를 방지합니다.
FIT 기반 아키텍처: Snap Video는 FIT(Far-reaching Interleaved Transformers) 아키텍처를 활용하여 압축된 비디오 표현을 학습함으로써 시공간 컴퓨팅의 효율적인 공동 모델링을 달성합니다.
Snap Video는 UCF101 및 MSR-VTT와 같이 널리 채택된 데이터 세트에서 평가되었으며 액션 품질 생성에 특별한 이점을 보여줍니다. 또한 사용자 연구에 따르면 Snap Video는 비디오 텍스트 정렬, 작업 수 및 품질 측면에서 최첨단 방법보다 성능이 뛰어난 것으로 나타났습니다.
또한 이 논문에서는 적대적 훈련 또는 자동 회귀 생성 기술을 기반으로 한 방법과 텍스트-비디오 생성 작업에서 확산 모델을 사용하는 최근 발전 사항을 포함하여 비디오 생성 분야의 다른 연구 노력에 대해 논의합니다.
Snap Video는 비디오를 일류 시민으로 취급하여 텍스트-비디오 생성에서 확산 프로세스 및 아키텍처의 일반적인 문제를 체계적으로 해결합니다. 제안된 수정된 EDM 확산 프레임워크와 FIT 기반 아키텍처는 비디오 생성의 품질과 확장성을 크게 향상시킵니다.
논문 주소: https://arxiv.org/pdf/2402.14797
전체적으로 Snap Video는 텍스트-비디오 생성 분야에서 놀라운 성과를 거두었으며 효율적인 아키텍처와 탁월한 성능은 미래 비디오 제작에 새로운 가능성을 제공합니다. Downcodes의 편집자는 이 기술이 비디오 제작 분야에 지대한 영향을 미칠 것이라고 믿습니다.