알리바바는 2세대 시각적 언어 모델 Qwen2-VL을 오픈소스화하고 개발자의 사용을 용이하게 하기 위해 API 인터페이스와 오픈소스 코드를 제공할 것이라고 발표했습니다. 이 모델은 이미지 및 비디오 이해 분야에서 상당한 발전을 이루었고, 다국어를 지원하며, 휴대폰과 로봇을 자율적으로 작동할 수 있는 강력한 시각적 에이전트 기능을 갖추고 있습니다. Qwen2-VL은 다양한 애플리케이션 시나리오의 요구 사항을 충족하기 위해 2B, 7B 및 72B의 세 가지 크기로 모델을 제공하며, 72B 모델은 대부분의 지표에서 가장 잘 작동하는 반면 2B 모델은 모바일 애플리케이션에 적합합니다.
9월 2일, Tongyi Qianwen은 2세대 시각적 언어 모델 Qwen2-VL의 오픈 소스를 발표하고 사용자가 직접 호출할 수 있도록 Alibaba Cloud Bailian 플랫폼에서 2B 및 7B 크기용 API와 수량화 버전 모델을 출시했습니다.
Qwen2-VL 모델은 여러 측면에서 포괄적인 성능 향상을 달성합니다. 다양한 해상도와 종횡비의 이미지를 이해할 수 있으며 DocVQA, RealWorldQA 및 MTVQA와 같은 벤치마크 테스트에서 세계 최고의 성능을 달성했습니다. 또한, 20분 이상의 장편 영상을 이해하고 영상 기반 Q&A, 대화, 콘텐츠 제작 애플리케이션도 지원한다. Qwen2-VL은 또한 강력한 시각 지능 기능을 갖추고 있으며 휴대폰과 로봇을 자율적으로 작동하여 복잡한 추론과 의사 결정을 수행할 수 있습니다.
이 모델은 중국어, 영어, 대부분의 유럽 언어, 일본어, 한국어, 아랍어, 베트남어 등을 포함한 이미지와 비디오의 다국어 텍스트를 이해할 수 있습니다. Tongyi Qianwen 팀은 포괄적인 대학 질문, 수학적 능력, 문서 이해, 표, 다국어 텍스트 및 이미지, 일반적인 장면 질문 및 답변, 비디오 이해, 에이전트 기능 등 6가지 측면에서 모델의 기능을 평가했습니다.
주력 모델인 Qwen2-VL-72B는 대부분의 지표에서 최적 수준에 도달했습니다. Qwen2-VL-7B는 경제적인 매개변수 규모로 매우 경쟁력 있는 성능을 달성하는 반면, Qwen2-VL-2B는 풍부한 모바일 애플리케이션을 지원하고 완전한 이미지 및 비디오 다국어 이해 기능을 갖추고 있습니다.
모델 아키텍처 측면에서 Qwen2-VL은 ViT와 Qwen2의 시리즈 구조를 이어갑니다. 세 가지 크기의 모델 모두 600M ViT를 사용하여 이미지와 비디오의 통합 입력을 지원합니다. 모델의 시각적 정보 인식 및 비디오 이해 기능을 향상시키기 위해 팀은 기본 동적 해상도에 대한 완전한 지원을 구현하고 M-ROPE(Multi-Modal Rotation Position Embedding) 방법을 사용하는 등 아키텍처를 업그레이드했습니다.
Alibaba Cloud Bailian 플랫폼은 사용자가 직접 호출할 수 있는 Qwen2-VL-72B API를 제공합니다. 동시에 Qwen2-VL-2B 및 Qwen2-VL-7B의 오픈 소스 코드는 Hugging Face Transformers, vLLM 및 기타 타사 프레임워크에 통합되었으며 개발자는 이러한 플랫폼을 통해 모델을 다운로드하고 사용할 수 있습니다.
Alibaba Cloud Bailian 플랫폼:
https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api
GitHub:
https://github.com/QwenLM/Qwen2-VL
포옹하는 얼굴:
https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
매직 모델범위:
https://modelscope.cn/organization/qwen?tab=model
모델 경험:
https://huggingface.co/spaces/Qwen/Qwen2-VL
즉, Qwen2-VL 모델의 오픈 소스는 개발자에게 강력한 도구를 제공하고, 시각적 언어 모델 기술 개발을 촉진하며, 다양한 애플리케이션 시나리오에 더 많은 가능성을 제공합니다. 개발자는 제공된 링크를 통해 모델과 코드를 얻어 자신만의 애플리케이션 구축을 시작할 수 있습니다.