멀티 모달 대형 언어 모델 (MLLM)의 빠른 개발로 인해 이미지 및 비디오 관련 작업은 전례없는 획기적인 획기적인 발전, 특히 시각적 질문 및 답변, 내러티브 생성 및 대화식 편집 분야에서 안내했습니다. 그러나 이러한 기술의 상당한 진전에도 불구하고 세밀한 비디오 컨텐츠 이해를 달성하는 것은 여전히 어려운 문제로 남아 있습니다. 이 과제에는 픽셀 수준의 세분화 및 언어 설명을 통한 추적뿐만 아니라 특정 비디오 프롬프트의 Visual Q & A와 같은 복잡한 작업도 포함됩니다.
현재의 최첨단 비디오 인식 모델은 세분화 및 추적 작업에서 잘 수행되지만 개방 언어 이해 및 대화 기능은 여전히 부적절합니다. 비디오 mllms는 비디오 이해력과 Q & A 작업에서 잘 수행되지만 여전히 지각적인 작업과 시각적 신호를 처리 할 수 없습니다. 이 제한은 더 넓은 범위의 시나리오에서 사용을 제한합니다.
기존 솔루션은 주로 두 가지 범주로 나뉩니다 : MLLM (Multimodal Lange Language Models)과 기준 세분화 시스템. MLLMS는 처음에 멀티 모달 융합 방법 및 기능 추출기를 개선하는 데 중점을 두 었으며 LLM과 같은 LLM에 대한 명령 조정을위한 프레임 워크로 점차 개발했습니다. 최근에 연구원들은 이미지, 비디오 및 다중 이미지 분석을 Llava-Ponevision과 같은 단일 프레임 워크로 통일하려고 시도했습니다. 동시에, 기준 세그먼테이션 시스템은 또한 기본 퓨전 모듈에서 통합 세분화 및 추적으로 변환되었습니다. 그러나 이러한 솔루션은 여전히 인식 및 언어 이해력의 포괄적 인 통합에서 단점이 있습니다.
UC Merced, Bytedance Seed Team, Wuhan University 및 Peking University의 연구원들은 이미지와 비디오에 대한 집중적 인 기본 이해를 달성하도록 설계된 획기적인 통합 모델 인 SA2VA를 제안했습니다. 이 모델은 일회성 지침 튜닝을 최소화하고 광범위한 이미지 및 비디오 작업을 지원함으로써 기존의 멀티 모달 대형 언어 모델의 한계를 극복합니다.
SA2VA는 SAM-2를 LLAVA와 혁신적으로 통합하여 텍스트, 이미지 및 비디오를 공유 LLM 토큰 공간으로 통합합니다. 또한 연구원들은 72k 이상의 복잡한 비디오 시나리오에서 객체 표현식과 2K가 수동으로 검증 된 비디오 객체를 포함하여 강력한 벤치마킹 기능을 보장하는 REF-SAV라는 광범위한 자동 주석 데이터 세트를 출시했습니다.
SA2VA의 아키텍처는 주로 LLAVA 및 SAM-2와 유사한 모델이며 새로운 디커플링 디자인을 채택합니다. Llava와 같은 구성 요소에는 이미지 및 비디오를 처리하는 시각적 인코더, 시각적 투영 계층 및 텍스트 토큰 예측을위한 LLM이 포함되어 있습니다. 이 시스템은 SAM-2가 직접 토큰 교환없이 미리 훈련 된 LLAVA 모델 옆에서 작동 할 수있는 고유 한 디커플링 방법을 채택하여 계산 효율을 유지하고 다양한 미리 훈련 된 MLLMS 연결로 플러그인 및 플러그를 뽑을 수 있습니다.
연구 결과에 따르면 SA2VA는 인용 세분화 작업에서 최첨단 결과를 달성했으며 SA2VA-8B 모델은 각각 Glamm-7B와 같은 이전 시스템을 능가하는 CIOU 점수를 받았습니다. 대화 기능 측면에서 SA2VA는 각각 MME, Mmbench 및 Seed-Bench에서 2128, 81.6 및 75.1의 우수한 결과를 달성했습니다.
또한 비디오 벤치 마크에서 SA2VA의 성능은 이전 상태 인 ART VISA-13B를 크게 능가하여 이미지 및 비디오 이해 작업의 효율성과 효과를 보여줍니다.
종이 : https://arxiv.org/abs/2501.04001
모델 : https://huggingface.co/collections/bytedance/sa2va-model-zoo-677e3084d71b5f108d00e093
핵심 사항 :
SA2VA는 이미지와 비디오에 대한 심층적 인 이해를 달성하고 기존의 멀티 모드 모델의 한계를 극복하는 새로운 통합 AI 프레임 워크입니다.
이 모델은 인용 세분화 및 대화 기능과 같은 몇 가지 벤치 마크에서 최첨단 결과를 달성하여 뛰어난 성능을 보여줍니다.
SA2VA의 설계는 디퍼 커플 링 방법을 통해 시각적 및 언어 이해 기능을 효과적으로 통합하여 광범위한 이미지 및 비디오 작업을 지원합니다.