Google은 최근 최대 10초 길이의 동영상을 생성하고 해당 사운드트랙 사운드 효과를 자동으로 생성할 수 있는 최신 동영상 생성 모델인 VideoPoet을 출시했습니다. 이전 확산 모델과 달리 VideoPoet은 대규모 언어 모델을 사용하므로 텍스트 대 비디오, 비디오 수정, 비디오 스타일화 등 여러 기능을 통합할 수 있어 사용 유연성과 효율성이 크게 향상됩니다. 고유한 비디오 확장 메커니즘은 마지막 프레임의 다음 프레임 내용을 반복적으로 예측하여 비디오가 무한 확장되는 환상을 만들어 사용자에게 새로운 비디오 생성 경험을 선사합니다.
12월 19일, 구글은 비디오 생성 모델인 VideoPoet을 출시했습니다. 이 모델은 최대 10초 길이의 비디오를 생성할 수 있으며, 비디오 콘텐츠를 기반으로 사운드트랙 사운드 효과를 자동으로 생성할 수도 있습니다. VideoPoet은 영상의 마지막 프레임의 다음 프레임 내용을 반복적으로 예측하여 영상을 확장함으로써 사용자에게 영상이 무한히 확장될 수 있다는 느낌을 줍니다. VideoPoet은 다른 모델과 달리 확산 모델 대신 대규모 언어 모델을 사용하므로 텍스트 대 비디오, 비디오 복구, 비디오 스타일화 등 여러 기능을 동일한 모델에 통합하여 보다 유연하게 사용할 수 있습니다.
VideoPoet의 등장은 영상 생성 기술의 획기적인 발전을 의미하며, 그 강력한 기능과 편리한 조작 방식은 향후 다양한 분야에서 널리 활용되어 사용자들에게 더욱 풍부하고 편리한 영상 제작 경험을 제공할 것으로 기대됩니다. 우리는 VideoPoet이 앞으로 더 놀라운 기능과 응용 프로그램을 선보이길 기대합니다.