Alibaba Damo Academy는 2024년 8월 30일 다중 모달 대규모 언어 모델 Qwen2-VL에 대한 주요 업데이트를 출시했습니다. 이 업데이트는 이미지 이해, 비디오 처리 및 다국어 지원을 크게 향상시키고 새로운 성능 벤치마크를 설정합니다. Qwen2-VL 모델은 시각적 정보에 대한 이해도를 향상시킬 뿐만 아니라, 고급 영상 이해 능력과 시각화 에이전트 기능을 통합해 보다 복잡한 추론과 의사결정을 수행할 수 있게 해준다. 또한 확장된 다국어 지원을 통해 전 세계적으로 더 쉽게 사용할 수 있습니다.
Qwen2-VL 모델은 이미지 이해, 비디오 처리 및 다국어 지원 분야에서 상당한 개선을 달성하여 핵심 성과 지표에 대한 새로운 벤치마크를 설정했습니다. Qwen2-VL 모델의 새로운 기능에는 시각적 정보를 보다 정확하게 이해하고 해석할 수 있는 향상된 이미지 이해 기능, 동적 비디오 콘텐츠를 실시간으로 분석할 수 있는 고급 비디오 이해 기능 및 모델을 변환하는 통합 시각화 에이전트 기능이 포함됩니다. 복잡한 추론과 의사결정을 위한 강력한 에이전트로, 다국어 지원을 확장하여 다양한 언어 환경에서 더 쉽게 접근하고 효과적으로 사용할 수 있도록 합니다.
기술 아키텍처 측면에서 Qwen2-VL은 동적 해상도 지원을 구현하고 모든 해상도의 이미지를 블록으로 나누지 않고 처리할 수 있으므로 모델 입력과 이미지 고유 정보 간의 일관성을 보장합니다. 또한 M-ROPE(Multimodal Rotary Position Embedding)의 혁신을 통해 모델은 1D 텍스트, 2D 비전 및 3D 비디오 위치 정보를 동시에 캡처하고 통합할 수 있습니다.
Qwen2-VL-7B 모델은 7B 규모의 이미지, 다중 이미지 및 비디오 입력에 대한 지원을 성공적으로 유지하고 문서 이해 작업 및 이미지 기반 다국어 텍스트 이해에 탁월한 성능을 발휘합니다.
동시에 팀은 모바일 배포에 최적화된 2B 모델도 출시했습니다. 매개변수 수는 2B에 불과하지만 이미지, 비디오 및 다국어 이해에서 좋은 성능을 발휘합니다.
모델 링크:
Qwen2-VL-2B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Instruct
Qwen2-VL-7B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct
Qwen2-VL 모델의 업데이트는 다중 모드 대규모 언어 모델 기술의 새로운 혁신을 의미합니다. 이미지, 비디오 및 다중 언어 처리의 강력한 기능은 미래 응용 프로그램에 대한 광범위한 전망을 제공합니다. 7B와 2B의 두 가지 버전 출시로 다양한 애플리케이션 시나리오에 대한 보다 유연한 옵션도 제공됩니다.