Zero One Wish ha lanzado su serie Yi de modelos de lenguaje multimodal Yi-VL, que ha demostrado un excelente rendimiento en la comprensión de imágenes y textos y en la generación de diálogos. El modelo Yi-VL ha logrado resultados líderes en conjuntos de datos tanto en chino como en inglés. Especialmente en la prueba de referencia MMMU, Yi-VL-34B superó a otros modelos similares con una precisión del 41,6%, lo que demuestra su sólida comprensión del conocimiento interdisciplinario y sus capacidades de aplicación. . Este artículo explorará en profundidad la arquitectura, el rendimiento y la importancia del modelo Yi-VL en el campo multimodal.
El modelo de lenguaje multimodal 01Wan Yi-VL es un nuevo miembro de la familia de modelos de la serie 01Wan Yi. Tiene excelentes capacidades de comprensión de imágenes y textos y generación de diálogos. El modelo Yi-VL ha logrado resultados destacados tanto en el conjunto de datos inglés MMMU como en el conjunto de datos chino CMMMU, lo que demuestra su solidez en tareas interdisciplinarias complejas. Yi-VL-34B superó a otros modelos grandes multimodales con una precisión del 41,6% en el nuevo MMMU de referencia multimodal, lo que demuestra su sólida comprensión del conocimiento interdisciplinario y sus capacidades de aplicación. El modelo Yi-VL se basa en la arquitectura LLaVA de código abierto e incluye Vision Transformer (ViT), módulo de proyección y modelos de lenguaje a gran escala Yi-34B-Chat y Yi-6B-Chat. ViT se utiliza para la codificación de imágenes, el módulo de proyección implementa la capacidad de alinear espacialmente características de la imagen con características del texto y el modelo de lenguaje a gran escala proporciona poderosas capacidades de generación y comprensión del lenguaje.La aparición del modelo Yi-VL marca un nuevo avance en la tecnología de modelos de lenguaje multimodal, y vale la pena esperar su poderoso rendimiento y sus amplias perspectivas de aplicación. En el futuro, con el desarrollo continuo de la tecnología, se espera que el modelo Yi-VL desempeñe un papel importante en más campos y promueva el progreso y la aplicación de la tecnología de inteligencia artificial.