Alibaba Cloud lanzó recientemente su nuevo modelo visual de Tongyi Qianwen Big Model - Qwen2.5 -VL, y ha abierto sus tres versiones de tamaño diferente de 3B, 7B y 72B. Este movimiento marca un avance significativo en el campo de AI Vision. . QWEN2.5-VL no solo tiene potentes capacidades de comprensión de imágenes, sino que también admite más de una hora de comprensión de video. suscripción.
Alibaba Cloud Tongyi Qianwen ha abierto el nuevo modelo visual QWEN2.5-VL, y lanzó tres versiones de tamaño en 3B, 7B y 72B.
Entre ellos, el insignia QWEN2.5-VL-72B ganó el campeonato de comprensión visual en 13 revisiones autorizadas, superando a GPT-4O y Claude3.5. Alibaba Cloud presentó oficialmente que el nuevo Qwen2.5-VL puede analizar con mayor precisión el contenido de la imagen y admitir más de 1 hora de comprensión de video. Este modelo puede buscar eventos específicos en el video y resumir puntos clave de diferentes períodos de tiempo del video, lo que ayuda a los usuarios de manera rápida y eficiente a extraer información clave del video.
Además, QWEN2.5-VL se puede transformar en agentes visuales que pueden controlar los teléfonos y computadoras móviles sin ajustar, logrando operaciones múltiples y complejas, como enviar bendiciones a amigos designados, edición de fotos de computadora y boleto móvil reserva espera. QWEN2.5-VL no solo es bueno para identificar objetos comunes, como flores, pájaros, peces e insectos, sino que también analiza texto, gráficos, iconos, gráficos y diseños en imágenes. Alibaba Cloud también ha mejorado las capacidades de reconocimiento de OCR de Qwen2.5-VL, y ha mejorado las capacidades de reconocimiento de texto y posicionamiento de texto multi-escena, múltiples idiomas y multi-direccionales.
Al mismo tiempo, la capacidad de extracción de información se ha mejorado enormemente para satisfacer las crecientes necesidades digitales e inteligentes de revisión, finanzas y comercio de calificación.
Agujas:
Alibaba Cloud Tongyi Qianwen Open Source Qwen2.5-VL, lanzando tres versiones de 3B, 7B y 72B.
QWEN2.5-VL-72B supera a GPT-4O y Claude3.5 en la evaluación de la comprensión visual.
QWEN2.5-VL admite la comprensión de video durante 1 hora y mejora las capacidades de reconocimiento de OCR.
El código abierto de Qwen2.5-VL promoverá en gran medida el desarrollo de la visión de IA y traerá más posibilidades para aplicaciones innovadoras a todos los ámbitos de la vida. Su poderoso desempeño y su amplia aplicación de aplicaciones promoverán sin duda el desarrollo y la popularización de la tecnología de inteligencia artificial.