Investigadores de la Universidad China de Hong Kong y SmartMore han desarrollado conjuntamente un marco innovador de modelo de lenguaje visual (VLM) llamado Mini-Gemini. Este marco logra excelentes resultados más allá de los modelos existentes en múltiples puntos de referencia de disparo cero a través de un sistema de codificador dual y tecnología de extracción de información de parches. Mini-Gemini demuestra alta eficiencia y alta precisión al procesar tareas visuales y de texto complejas, lo que indica que la tecnología VLM ha logrado avances significativos en el procesamiento de tareas complejas y también proporciona una nueva dirección para el desarrollo futuro del campo de la IA. Su arquitectura eficiente y su potente rendimiento lo convierten en un hito importante en el campo de VLM.
Investigadores de la Universidad China de Hong Kong y SmartMore han introducido un marco novedoso llamado Mini-Gemini para avanzar en el desarrollo de VLM a través de un sistema de codificador dual y tecnología de extracción de información de parches. Mini-Gemini funciona bien en múltiples puntos de referencia de disparo cero, superando a los modelos existentes. Este marco adopta un sistema de codificador dual, extracción de información de parches y conjuntos de datos de alta calidad para promover el desarrollo de VLM. Mini-Gemini demuestra eficiencia y precisión en el manejo de tareas visuales y textuales complejas. El alcance de la aplicación y el rendimiento del modelo Gemini se amplían constantemente, lo que muestra un gran potencial en el campo de la IA.
La aparición del marco Mini-Gemini marca un nuevo avance en la tecnología de modelos de lenguaje visual. Su arquitectura eficiente y su excelente rendimiento en las pruebas comparativas han sentado una base sólida para la aplicación futura de VLM en más campos y también han brindado un nuevo impulso para el desarrollo continuo de la tecnología de inteligencia artificial. Se cree que Mini-Gemini y sus versiones mejoradas posteriores desempeñarán un papel importante en aplicaciones más prácticas en el futuro.