En los últimos años, la tecnología de modelos de lenguaje grande (LLM) se ha desarrollado rápidamente y el modelo de lenguaje visual, como una rama importante, ha recibido amplia atención. Especialmente en China, universidades como la Universidad de Tsinghua y la Universidad de Zhejiang promueven activamente la investigación y el desarrollo de modelos visuales de código abierto, inyectando nueva vitalidad al desarrollo del campo de la inteligencia artificial nacional. Este artículo se centrará en varios modelos de visión de código abierto de alto perfil y analizará su potencial en el campo del procesamiento de la visión.
Universidades como la Universidad de Tsinghua y la Universidad de Zhejiang han promovido alternativas de código abierto a GPT-4V, y en China han surgido una serie de modelos visuales de código abierto con excelente rendimiento. Entre ellos, LLaVA, CogAgent y BakLLaVA han llamado mucho la atención. LLaVA ha demostrado capacidades cercanas a los niveles GPT-4 en chat visual y respuesta a preguntas de razonamiento, mientras que CogAgent es un modelo de lenguaje visual de código abierto mejorado en CogVLM. Además, BakLLaVA es un modelo básico de Mistral7B mejorado con la arquitectura LLaVA1.5, que tiene mejor rendimiento y capacidades comerciales. Estos modelos de visión de código abierto tienen un gran potencial en el campo del procesamiento de la visión.
La aparición de modelos visuales de código abierto como LLaVA, CogAgent y BakLLaVA marca el progreso significativo de China en el campo de la inteligencia artificial, proporcionando herramientas y recursos poderosos para la academia y la industria, y también indica que los modelos de lenguaje visual tendrán perspectivas de aplicación futuras más amplias. promover el desarrollo sostenible de la tecnología de inteligencia artificial y traer cambios en todos los ámbitos de la vida. El código abierto de estos modelos también reduce el umbral técnico y promueve una innovación y una cooperación más amplias.