NVIDIA se une a los equipos de investigación de Georgia Tech, UMD y HKPU para lanzar un nuevo modelo de lenguaje visual NVEagle. Este modelo multimodal de lenguaje grande (MLLM) puede comprender imágenes y mantener conversaciones en lenguaje natural, lo que lo convierte en un súper asistente que puede "ver y hablar". Mejora significativamente la comprensión de la información visual al convertir imágenes en marcas visuales y combinarlas con incrustaciones de texto, y funciona bien en múltiples puntos de referencia, como lograr una puntuación promedio de 85,9 en OCRBench, superando a muchos modelos líderes. NVEagle ofrece tres versiones para satisfacer diferentes requisitos de tareas, entre las cuales la versión 13B-Chat está especialmente optimizada para IA conversacional.
Por ejemplo, puede identificar con precisión a personas en imágenes y responder preguntas como "Huang Renxun". Sin embargo, construir un modelo tan potente también plantea desafíos, como el fenómeno de las "alucinaciones" en el procesamiento de imágenes de alta resolución. El equipo de investigación superó con éxito estas dificultades y logró un procesamiento preciso de información visual compleja explorando diferentes codificadores visuales y estrategias de fusión, especialmente utilizando el mecanismo Mixed Expert (MoE). NVEagle se lanzó en la plataforma Hugging Face para comodidad de investigadores y desarrolladores. Su excelente desempeño en tareas como OCR, TextVQA y GQA demuestra su poderosa comprensión visual y capacidades de generación de lenguaje, estableciendo un nuevo punto de referencia para el desarrollo de modelos de lenguaje visual.
Entrada del proyecto: https://top.aibase.com/tool/eagle
demostración: https://huggingface.co/spaces/NVEagle/Eagle-X5-13B-Chat
Destacar:
NVEagle es un modelo de lenguaje visual de nueva generación lanzado por NVIDIA, diseñado para mejorar la comprensión de información visual compleja.
El modelo contiene tres versiones, que son adecuadas para diferentes tareas. La versión 13B-Chat se centra en la IA conversacional.
?A través de múltiples puntos de referencia, el modelo Eagle supera a muchos modelos líderes existentes, lo que demuestra un rendimiento superior.
En definitiva, la aparición de NVEagle marca un gran avance en la tecnología de modelos de lenguaje visual. Su potente rendimiento y facilidad de uso aportarán innovación a muchos escenarios de aplicación y promoverán un mayor desarrollo de la tecnología de inteligencia artificial. Esperamos aplicaciones más amplias e investigaciones más profundas sobre NVEagle en el futuro.