Alibaba Cloud Tongyi Open Source Qwen2.5 -VL, Visual AI supera Claude 3.5 - Artigos da AI

Autor：Eve Cole Data da Última Atualização：2025-02-07 03:00:01

A Alibaba Cloud lançou recentemente seu novo modelo visual do Tongyi Qianwen Big Model - Qwen2.5 -VL e abriu suas três versões de tamanho diferente de 3B, 7B e 72B. Esse movimento marca um avanço significativo no campo da AI Vision . O QWEN2.5-VL não apenas possui recursos poderosos de compreensão de imagem, mas também suporta mais de uma hora de entendimento em vídeo. assinando ingressos.

O Alibaba Cloud Tongyi Qianwen abriu o novo modelo visual QWEN2.5-VL e lançou três versões de tamanho em 3b, 7b e 72b.

Entre eles, o principal QWEN2.5-VL-72B venceu o campeonato de entendimento visual em 13 críticas autorizadas, superando o GPT-4O e Claude3.5. A Alibaba Cloud apresentou oficialmente que o novo QWEN2.5-VL pode analisar com mais precisão o conteúdo da imagem e suportar mais de 1 hora de entendimento em vídeo. Esse modelo pode procurar eventos específicos no vídeo e resumir os principais pontos de diferentes períodos de tempo do vídeo, ajudando com rapidez e eficiência a extração de informações importantes do vídeo.

Alibaba Cloud Tongyi Open Source Qwen2.5-VL: A IA visual mais forte além do GPT-4O

Além disso, o QWEN2.5-VL pode ser transformado em agentes visuais que podem controlar telefones celulares e computadores sem ajuste fino, alcançando operações de várias etapas e complexas, como enviar bênçãos para amigos designados, edição de fotos de computador e ingresso móvel reserva de espera. QWEN2.5-VL não é apenas bom em identificar objetos comuns, como flores, pássaros, peixes e insetos, mas também analisa texto, gráficos, ícones, gráficos e layouts nas imagens. A Alibaba Cloud também melhorou os recursos de reconhecimento de OCR do QWEN2.5-VL e aprimorou os recursos de reconhecimento de texto e texto multi-cena, múltipla e multi-linguagem.

Alibaba Cloud Tongyi Open Source Qwen2.5-VL: A IA visual mais forte além do GPT-4O

Ao mesmo tempo, a capacidade de extração de informações foi bastante aprimorada para atender às crescentes necessidades digitais e inteligentes de revisão de qualificação, finanças e comércio.

Pontos:

Alibaba Cloud Tongyi Qianwen Open Source Qwen2.5-VL, lançando três versões de 3b, 7b e 72b.

QWEN2.5-VL-72B supera GPT-4O e Claude3.5 na avaliação da compreensão visual.

O QWEN2.5-VL suporta o entendimento de vídeo por mais de 1 hora e aprimora os recursos de reconhecimento do OCR.

O código aberto do QWEN2.5-VL promoverá bastante o desenvolvimento da Visão da IA e trará mais possibilidades de aplicações inovadoras para todas as esferas da vida. Seu poderoso desempenho e amplas perspectivas de aplicativos promoverão, sem dúvida, o desenvolvimento e a popularização da tecnologia de inteligência artificial.