이 기사에서는 1초에서 2시간까지의 비디오 길이를 포괄하는 계층적 비디오 자막을 생성할 수 있는 오픈 소스 비디오 자막 생성 기술인 Video ReCap 모델을 소개합니다. 이 모델은 재귀 비디오 언어 아키텍처를 채택하고 비디오 인코더, 비디오 언어 정렬 및 재귀 텍스트 디코더의 세 가지 핵심 모듈을 포함합니다. 다양한 시간 길이와 추상화 수준에서 비디오 콘텐츠를 이해하고 정확하고 풍부한 계층화된 설명을 생성할 수 있습니다. 재귀적 아키텍처는 단락 설명 및 비디오 요약을 생성하는 데 상당한 이점을 보여주고 긴 비디오 질문 및 답변의 효과를 향상시켜 비디오 이해 및 콘텐츠 생성 분야에 새로운 혁신을 가져올 수 있습니다.
Video ReCap 모델은 1초~2시간 분량의 영상을 처리하고, 다양한 레벨의 레이어 영상 자막을 생성할 수 있는 오픈소스 영상 자막 생성 기술입니다. 비디오 인코더, 비디오 언어 정렬 및 재귀 텍스트 디코더의 세 가지 모듈을 포함하는 재귀 비디오 언어 아키텍처를 사용하여 모델은 다양한 시간 길이와 추상화 수준의 비디오를 이해하고 정확하고 풍부하게 계층화된 비디오 설명 자막을 생성할 수 있습니다. 실험은 세그먼트 설명 및 비디오 요약을 생성하기 위한 재귀 아키텍처의 중요성을 보여줍니다. 또한, 이 모델에 의해 생성된 계층적 비디오 자막은 EgoSchema 데이터 세트를 기반으로 한 긴 비디오 질문과 답변의 효과를 크게 향상시킬 수 있습니다.전체적으로 Video ReCap 모델은 효율적인 자막 생성 기능과 계층 구조를 통해 비디오 이해 및 응용 분야에서 큰 잠재력을 보여 관련 분야의 연구 개발에 새로운 방향과 기술 지원을 제공합니다. 또한 오픈 소스 기능을 통해 더 많은 연구자와 개발자가 이 기술의 발전과 개선에 더 쉽게 참여하고 공동으로 홍보할 수 있습니다.