Downcodes의 편집자는 Zhipu AI가 최근 CogVLM2-Video 모델의 오픈 소스 업그레이드를 발표했다는 사실을 알게 되었습니다. 이 모델은 영상 이해 분야에서 획기적인 발전을 이루었으며, 시간 정보 처리에 있어 기존 모델의 단점을 효과적으로 해결했습니다. 다중 프레임 비디오 이미지 및 타임스탬프 정보를 도입하고 자동화된 시간 위치 데이터 구성 방법을 활용함으로써 CogVLM2-Video는 비디오 자막 생성 및 시간 위치 지정에서 탁월한 성능을 발휘하여 비디오 생성 및 요약과 같은 작업을 위한 강력한 도구를 제공합니다. 이 모델은 공개 비디오 이해 벤치마크에서 최고 수준의 결과를 달성했으며 효율적인 자동화 데이터 생성 프로세스를 통해 모델 교육 비용도 절감됩니다.
Zhipu AI는 비디오 이해 분야에서 상당한 진전을 이룬 모델인 CogVLM2-Video 모델의 오픈 소스 업그레이드를 발표했습니다. CogVLM2-Video는 다중 프레임 비디오 이미지와 타임스탬프를 인코더 입력으로 도입하여 시간 정보 손실을 처리할 때 기존 비디오 이해 모델의 한계를 해결합니다. 모델은 자동화된 시간 측위 데이터 구축 방식을 사용해 30,000개의 시간 관련 영상 질의응답 데이터를 생성함으로써 공개 영상 이해 벤치마크에서 최신 성능을 달성하는 모델을 훈련한다. CogVLM2-Video는 비디오 자막 생성 및 시간 위치 지정에 탁월하여 비디오 생성 및 요약과 같은 작업을 위한 강력한 도구를 제공합니다.
CogVLM2-Video는 입력 비디오에서 프레임을 추출하고 타임스탬프 정보에 주석을 추가하여 언어 모델이 각 프레임의 해당 시간을 정확하게 알 수 있도록 하여 시간 위치 지정 및 관련 질문과 답변을 달성합니다.
대규모 훈련을 위해 이미지 이해 모델과 대규모 언어 모델의 결합을 통해 주석 비용을 줄이고 데이터 품질을 향상시키는 자동화된 비디오 질문 및 답변 데이터 생성 프로세스가 개발되었습니다. 최종 구성된 TQA(시간적 접지 질문 및 답변) 데이터 세트에는 30,000개의 레코드가 포함되어 모델 교육을 위한 풍부한 시간적 위치 데이터를 제공합니다.
CogVLM2-Video는 VideoChatGPT-Bench, Zero-shot QA 및 MVBench와 같은 정량적 평가 지표에서 우수한 성능을 포함하여 여러 공개 평가 세트에서 뛰어난 성능을 보여주었습니다.
코드: https://github.com/THUDM/CogVLM2
프로젝트 웹사이트: https://cogvlm2-video.github.io
온라인 평가판: http://36.103.203.44:7868/
전체적으로 CogVLM2-Video 모델의 오픈 소스 업그레이드는 비디오 이해 분야에 새로운 가능성을 제공하며, 그 효율성과 정확성은 관련 기술의 추가 개발을 촉진할 것입니다. 관심 있는 개발자는 제공된 링크를 방문하여 보고 사용해 볼 수 있습니다. Downcodes의 편집자는 이 모델을 기반으로 하는 더욱 혁신적인 응용 프로그램을 기대합니다!