¡Hecho para razonamiento visual complejo! Microsoft lanza el modelo de código abierto multimodal, liviano Phi-3.5-vision

Autor：Eve Cole Fecha de actualización：2024-12-22 19:16:02

Microsoft ha lanzado un nuevo modelo ligero de IA multimodal, Phi-3.5-vision, que es un nuevo miembro de la familia Phi-3 y está diseñado para procesar texto y entradas visuales. El modelo funciona bien en entornos con recursos limitados y admite una longitud de contexto de 128 K, lo que lo hace ideal para aplicaciones comerciales y de investigación. Phi-3.5-vision integra comprensión de imágenes, OCR, análisis de gráficos y otras funciones, y ha demostrado un rendimiento excelente en múltiples pruebas comparativas. Su naturaleza de código abierto y su diseño eficiente lo convierten en una opción ideal para diversas aplicaciones de IA.

El modelo Phi-3.5-vision presenta una amplia comprensión de imágenes, reconocimiento óptico de caracteres (OCR), análisis de gráficos y tablas, resumen de múltiples imágenes o videoclips, y más. El modelo demostró importantes mejoras de rendimiento en los puntos de referencia relacionados con el procesamiento de imágenes y videos.

El modelo Phi-3.5-vision consta de un sistema de 4.200 millones de parámetros, incluidos codificadores de imágenes, conectores, proyectores y modelos de lenguaje Phi-3Mini. Se entrena utilizando datos educativos de alta calidad, datos sintéticos y documentos públicos rigurosamente seleccionados, garantizando la calidad y privacidad de los datos.

Phi-3.5-vision contiene tres modelos:

Phi-3.5Mini Instruct: modelo de IA liviano, adecuado para entornos con memoria o recursos informáticos limitados.

Phi-3.5MoE (Mixture of Experts): el primer modelo de “mezcla de expertos” de Microsoft, que es bueno para manejar tareas complejas.

Phi-3.5Vision Instruct: Modelo multimodal que integra funciones de procesamiento de texto e imágenes.

Características principales

Las principales características funcionales del modelo Phi-3.5-vision incluyen comprensión de imágenes, OCR, comprensión de gráficos y tablas, comparación de múltiples imágenes, resumen de múltiples imágenes o videoclips, capacidades de razonamiento eficiente y baja latencia y optimización de la memoria.

Phi-3.5-vision tuvo un buen desempeño en múltiples pruebas comparativas, como MMMU, MMBench, TextVQA y pruebas de capacidad de procesamiento de video, así como en la prueba comparativa BLINK, lo que demuestra su sólido desempeño en tareas visuales y multimodales.

El lanzamiento del modelo Phi-3.5-vision de Microsoft trae nuevas opciones al campo de la IA, especialmente en términos de operación del lado del dispositivo y razonamiento visual complejo. Sus características de código abierto y su diseño optimizado le permiten funcionar bien en entornos con recursos limitados, brindando un sólido soporte para una variedad de aplicaciones impulsadas por IA.

Dirección de descarga del modelo: https://huggingface.co/microsoft/Phi-3.5-vision-instruct

En definitiva, Phi-3.5-vision proporciona una poderosa herramienta para desarrolladores e investigadores de IA con sus características livianas, multimodales y de alto rendimiento, promoviendo la aplicación de la IA en más campos. Su naturaleza de código abierto también promueve el intercambio y el desarrollo de tecnología de IA.