A Alibaba Cloud lançou recentemente seu novo modelo visual do Tongyi Qianwen Big Model - Qwen2.5 -VL e abriu suas três versões de tamanho diferente de 3B, 7B e 72B. Esse movimento marca um avanço significativo no campo da AI Vision . O QWEN2.5-VL não apenas possui recursos poderosos de compreensão de imagem, mas também suporta mais de uma hora de entendimento em vídeo. assinando ingressos.
O Alibaba Cloud Tongyi Qianwen abriu o novo modelo visual QWEN2.5-VL e lançou três versões de tamanho em 3b, 7b e 72b.
Entre eles, o principal QWEN2.5-VL-72B venceu o campeonato de entendimento visual em 13 críticas autorizadas, superando o GPT-4O e Claude3.5. A Alibaba Cloud apresentou oficialmente que o novo QWEN2.5-VL pode analisar com mais precisão o conteúdo da imagem e suportar mais de 1 hora de entendimento em vídeo. Esse modelo pode procurar eventos específicos no vídeo e resumir os principais pontos de diferentes períodos de tempo do vídeo, ajudando com rapidez e eficiência a extração de informações importantes do vídeo.
Além disso, o QWEN2.5-VL pode ser transformado em agentes visuais que podem controlar telefones celulares e computadores sem ajuste fino, alcançando operações de várias etapas e complexas, como enviar bênçãos para amigos designados, edição de fotos de computador e ingresso móvel reserva de espera. QWEN2.5-VL não é apenas bom em identificar objetos comuns, como flores, pássaros, peixes e insetos, mas também analisa texto, gráficos, ícones, gráficos e layouts nas imagens. A Alibaba Cloud também melhorou os recursos de reconhecimento de OCR do QWEN2.5-VL e aprimorou os recursos de reconhecimento de texto e texto multi-cena, múltipla e multi-linguagem.
Ao mesmo tempo, a capacidade de extração de informações foi bastante aprimorada para atender às crescentes necessidades digitais e inteligentes de revisão de qualificação, finanças e comércio.
Pontos:
Alibaba Cloud Tongyi Qianwen Open Source Qwen2.5-VL, lançando três versões de 3b, 7b e 72b.
QWEN2.5-VL-72B supera GPT-4O e Claude3.5 na avaliação da compreensão visual.
O QWEN2.5-VL suporta o entendimento de vídeo por mais de 1 hora e aprimora os recursos de reconhecimento do OCR.
O código aberto do QWEN2.5-VL promoverá bastante o desenvolvimento da Visão da IA e trará mais possibilidades de aplicações inovadoras para todas as esferas da vida. Seu poderoso desempenho e amplas perspectivas de aplicativos promoverão, sem dúvida, o desenvolvimento e a popularização da tecnologia de inteligência artificial.