Este artículo presenta el último modelo de IA de alta resolución, Griffon v2. El modelo combina señales textuales y visuales, permite referencias flexibles a objetos y mejora la percepción multimodal a través de proyectores de reducción de resolución. En tareas como generación de expresiones de referencia, posicionamiento de frases y comprensión de expresiones de referencia, Griffon v2 supera a los modelos expertos, mostrando especialmente ventajas significativas en la estructura de correferencia visual-lingüística, la detección de objetivos y el recuento de objetos. Su aparición marca un progreso importante en la comprensión y aplicación multimodal de modelos de IA.
El último modelo de IA de alta resolución, Griffon v2, combina señales textuales y visuales para proporcionar referencias flexibles a objetos. El equipo utilizó proyectores de reducción de resolución para mejorar las capacidades de percepción multimodal. El modelo funciona bien en tareas de generación de expresiones de citas, localización de frases y comprensión de expresiones de citas, superando a los modelos expertos. Tiene una estructura de correferencia visual-lingüística y muestra superioridad en la detección de objetivos y el recuento de objetos.
El avance del modelo Griffon v2 en la comprensión multimodal ofrece posibilidades más amplias para futuras aplicaciones de IA. Su rendimiento superior en la detección de objetivos y el recuento de objetos también indica su enorme potencial en aplicaciones prácticas. Se cree que en el futuro aparecerán aplicaciones más innovadoras basadas en este modelo.