¡Alibaba lanza el modelo de inferencia multimodal QVQ-72B! Se mejoran las habilidades visuales y lingüísticas, los problemas complejos se pueden resolver fácilmente.

Autor：Eve Cole Fecha de actualización：2024-12-27 16:16:01

El modelo de razonamiento multimodal QVQ-72B recientemente lanzado por Alibaba está construido sobre la base de Qwen2-VL-72B y muestra un rendimiento excelente en razonamiento visual, matemáticas y problemas científicos. Puede fusionar lenguaje e información visual, realizar razonamientos de varios pasos y resolver problemas complejos. Destaca especialmente en la derivación de relaciones causales en problemas físicos y razonamiento matemático complejo, lo que reduce significativamente la tasa de error y proporciona pasos claros para la resolución de problemas. QVQ-72B también demuestra una capacidad eficiente y precisa para extraer información clave en el procesamiento de informes técnicos y análisis de gráficos complejos, y tiene capacidades precisas de reconocimiento de detalles de imágenes. Se puede aplicar a campos como el monitoreo inteligente y la conducción autónoma.

QVQ-72B ha logrado un gran avance en el campo de la IA multimodal. Sus poderosas capacidades de razonamiento brindan nuevas ideas y herramientas para resolver problemas complejos, inyectando un nuevo impulso a la actualización inteligente de diversas industrias. Los enlaces de prueba en línea y de introducción detallada son: https://huggingface.co/spaces/Qwen/QVQ-72B-preview y https://qwenlm.github.io/blog/qvq-72b-preview/. Se cree que la aparición del QVQ-72B promoverá la aplicación y el desarrollo de la tecnología de inteligencia artificial en más campos.