El Laboratorio de IA de Shanghai ha lanzado el modelo de lenguaje multimodal a gran escala de código abierto: Scholar·Wanxiang InternVL2.5. Su rendimiento ha alcanzado una precisión de más del 70% en el punto de referencia de comprensión multimodal (MMMU), que es comparable a. Los modelos GPT-4o y Claude-Commercial como el 3.5-Sonnet tienen un rendimiento comparable. El modelo InternVL2.5 utiliza tecnología de razonamiento de pensamiento en cadena para demostrar un sólido rendimiento en múltiples pruebas de referencia, especialmente en razonamiento multidisciplinario, comprensión de documentos y detección de alucinaciones multimodal. La naturaleza de código abierto de este modelo promoverá en gran medida el desarrollo y la innovación de la tecnología de IA multimodal.
Recientemente, el Laboratorio de IA de Shanghai anunció el lanzamiento del modelo Scholar·Wanxiang InternVL2.5. Con su excelente rendimiento, este modelo de lenguaje multimodal a gran escala de código abierto se ha convertido en el primer modelo de código abierto que supera el 70 % de precisión en el Multi-modal Understanding Benchmark (MMMU), compitiendo con modelos comerciales como GPT-4o y Claude. -3.5-Soneto Rendimiento comparable.
El modelo InternVL2.5 logró una mejora de 3,7 puntos porcentuales a través de la tecnología de razonamiento Chain of Thinking (CoT), lo que demuestra un fuerte potencial de escalabilidad en el tiempo de prueba. El modelo se desarrolla aún más sobre la base de InternVL2.0, lo que mejora aún más el rendimiento al mejorar las estrategias de capacitación y prueba y mejorar la calidad de los datos. Se lleva a cabo una investigación en profundidad sobre codificadores visuales, modelos de lenguaje, tamaños de conjuntos de datos y configuraciones de tiempo de prueba para explorar la relación entre el tamaño del modelo y el rendimiento.
InternVL2.5 demuestra un desempeño competitivo en múltiples puntos de referencia, especialmente en razonamiento multidisciplinario, comprensión de documentos, comprensión de múltiples imágenes/vídeos, comprensión del mundo real, detección de alucinaciones multimodal, conexión visual, capacidades multilingües y procesamiento de lenguaje puro. y otros campos. Este logro no solo proporciona a la comunidad de código abierto un nuevo estándar para el desarrollo y aplicación de sistemas de IA multimodal, sino que también abre nuevas posibilidades para la investigación y aplicaciones en el campo de la inteligencia artificial.
InternVL2.5 conserva la misma arquitectura de modelo de sus predecesores InternVL1.5 e InternVL2.0, sigue el paradigma "ViT-MLP-LLM" e implementa la integración del nuevo InternViT-6B o InternViT-300M incremental previamente entrenado con varios Los LLM previamente capacitados de diferentes tamaños y tipos se integran mediante proyectores MLP de dos capas inicializados aleatoriamente. Para mejorar la escalabilidad del procesamiento de alta resolución, el equipo de investigación aplicó una operación de mezcla de píxeles para reducir la cantidad de tokens visuales a la mitad del número original.
La naturaleza de código abierto del modelo significa que los investigadores y desarrolladores pueden acceder y utilizar libremente InternVL2.5, lo que promoverá en gran medida el desarrollo y la innovación de la tecnología de IA multimodal.
Enlace del modelo:
https://www.modelscope.cn/collections/InternVL-25-fbde6e47302942
La versión de código abierto de InternVL2.5 proporciona recursos valiosos para la investigación de IA multimodal. Se espera que su excelente rendimiento y escalabilidad promuevan nuevos avances en este campo y promuevan el nacimiento de aplicaciones más innovadoras. Esperamos ver más resultados sorprendentes basados en InternVL2.5 en el futuro.