Qwen 팀은 Qwen2-VL-72B를 기반으로 구축되어 AI의 시각적 이해 및 추론 기능을 크게 향상시키는 최신 다중 모드 추론 모델 QVQ를 오픈 소스화했습니다. QVQ는 MMMU 테스트에서 70.3이라는 높은 점수를 획득했으며 여러 수학 벤치마크에서 이전 모델을 능가했습니다. 이 기사에서는 QVQ 모델의 특징, 장점, 제한 사항 및 사용법을 자세히 소개하고 독자가 QVQ 모델을 더 잘 이해하고 사용할 수 있도록 관련 링크를 제공합니다.
Qwen 팀은 최근 최신 다중 모드 추론 모델 QVQ의 오픈 소스를 발표하여 인공 지능의 시각적 이해와 복잡한 문제 해결 기능에 중요한 단계를 표시했습니다. 이 모델은 Qwen2-VL-72B를 기반으로 구축되었으며 언어와 시각적 정보를 결합하여 AI의 추론 능력을 향상시키는 것을 목표로 합니다. MMMU 평가에서 QVQ는 70.3이라는 높은 점수를 획득했으며, 여러 수학 관련 벤치마크 테스트에서 Qwen2-VL-72B-Instruct에 비해 상당한 성능 향상을 보였습니다.
QVQ 모델은 시각적 추론 작업, 특히 복잡한 분석적 사고가 필요한 영역에서 특별한 이점을 보여주었습니다. QVQ-72B-Preview의 탁월한 성능에도 불구하고 팀은 언어 혼합 및 코드 전환 문제, 순환 논리 패턴에 빠질 가능성, 안전 및 윤리적 고려 사항, 성능 및 벤치마크 제한 등 모델의 몇 가지 한계도 지적했습니다. 팀은 모델의 시각적 추론이 향상되었지만 Qwen2-VL-72B의 능력을 완전히 대체할 수는 없다는 점을 강조했습니다. 다단계 시각적 추론 과정에서 모델은 점차 이미지 콘텐츠에 대한 초점을 잃어 환각으로 이어질 수 있습니다.
Qwen 팀은 MMMU, MathVista, MathVision 및 OlympiadBench를 포함한 4가지 데이터 세트에서 QVQ-72B-Preview를 평가했습니다. 이러한 데이터 세트는 비전과 관련된 모델의 포괄적인 이해 및 추론 기능을 검사하도록 설계되었습니다. QVQ-72B-Preview는 이러한 벤치마크에서 좋은 성능을 발휘하여 선두 모델과의 격차를 효과적으로 좁혔습니다.
시각적 추론 작업에서 QVQ 모델의 적용을 추가로 시연하기 위해 Qwen 팀은 몇 가지 예를 제공하고 기술 블로그에 대한 링크를 공유했습니다. 또한 팀은 모델 추론을 위한 코드 예제와 Magic API-Inference를 사용하여 QVQ-72B-Preview 모델을 직접 호출하는 방법도 제공했습니다. Magic Platform의 API-Inference는 QVQ-72B-Preview 모델을 지원하며, 사용자는 API 호출을 통해 모델을 직접 사용할 수 있습니다.
모델 링크:
https://modelscope.cn/models/Qwen/QVQ-72B-Preview
체험링크:
https://modelscope.cn/studios/Qwen/QVQ-72B-preview
중국 블로그:
https://qwenlm.github.io/zh/blog/qvq-72b-preview
QVQ 모델의 오픈 소스는 다중 모드 인공 지능 연구를 위한 귀중한 리소스를 제공하고 향후 시각적 추론 분야에서 AI의 추가 발전을 예고합니다. 몇 가지 한계가 있기는 하지만, 수많은 벤치마크 테스트에서 뛰어난 성능은 여전히 인상적이다. 향후 QVQ 모델의 추가 최적화 및 개선을 기대합니다.