Alibaba Cloud는 최근 Tongyi Qianwen Big Model -Qwen2.5 -VL의 새로운 시각적 모델을 발표했으며 3b, 7b 및 72b의 세 가지 크기 버전을 공급했습니다. 이 움직임은 AI Vision의 분야에서 상당한 획기적인 혁신을 기록하고 있습니다 . QWEN2.5-VL은 강력한 이미지 이해 기능을 가지고있을뿐만 아니라 비디오에서 주요 정보를 효율적으로 추출하고 축복 보내기, 사진 편집 및와 같은 다중 단계 복잡한 작업을 지원할 수 있습니다. 가입 티켓 등.
Alibaba Cloud Tongyi Qianwen은 새로운 비주얼 모델 QWEN2.5-VL을 공급했으며 3B, 7B 및 72B에서 3 개의 크기 버전을 시작했습니다.
그중에서도 플래그십 QWEN2.5-VL-72B는 GPT-4O 및 Claude3.5를 능가하는 13 개의 권위있는 리뷰에서 시각적 이해 챔피언십에서 우승했습니다. Alibaba Cloud는 공식적으로 새로운 QWEN2.5-VL이 이미지 컨텐츠를보다 정확하게 구문 분석하고 1 시간 이상의 비디오 이해를 지원할 수 있다고 소개했습니다. 이 모델은 비디오의 특정 이벤트를 검색하고 비디오의 다양한 기간의 주요 포인트를 요약하여 사용자가 비디오에서 주요 정보를 추출 할 수 있도록 빠르고 효율적으로 도와줍니다.
또한 QWEN2.5-VL은 미세 조정없이 휴대 전화 및 컴퓨터를 제어 할 수있는 시각적 에이전트로 변환 할 수 있습니다. 예약 대기. QWEN2.5-VL은 꽃, 조류, 생선 및 곤충과 같은 일반적인 대상을 식별하는 데 능숙 할뿐만 아니라 이미지의 텍스트, 차트, 아이콘, 그래픽 및 레이아웃을 분석합니다. Alibaba Cloud는 또한 QWEN2.5-VL의 OCR 인식 기능을 향상 시켰으며, 다중 장면, 다 방향 및 다 방향 텍스트 인식 및 텍스트 포지셔닝 기능을 향상시켰다.
동시에, 정보 추출 기능은 자격 검토, 금융 및 상업의 디지털 및 지능형 요구를 충족시키기 위해 크게 향상되었습니다.
전철기:
Alibaba Cloud Tongyi Qianwen 오픈 소스 Qwen2.5-VL, 3b, 7b 및 72b의 3 가지 버전을 출시했습니다.
QWEN2.5-VL-72B는 시각적 이해 평가에서 GPT-4O 및 Claude3.5를 능가합니다.
QWEN2.5-VL은 1 시간 동안 비디오 이해를 지원하고 OCR 인식 기능을 향상시킵니다.
QWEN2.5-VL의 오픈 소스는 AI 비전의 발전을 크게 촉진하고 모든 생계에 혁신적인 응용 프로그램을위한 더 많은 가능성을 제공 할 것입니다. 강력한 성능과 광범위한 응용 전망은 의심 할 여지없이 인공 지능 기술의 추가 개발과 대중화를 촉진 할 것입니다.