NVIDIA se une às equipes de pesquisa da Georgia Tech, UMD e HKPU para lançar um novo modelo de linguagem visual NVEagle. Este modelo multimodal de linguagem grande (MLLM) pode compreender imagens e conduzir conversas em linguagem natural, tornando-o um superassistente que pode “ver e falar”. Ele melhora significativamente a compreensão das informações visuais convertendo imagens em marcações visuais e combinando-as com incorporações de texto, e tem um bom desempenho em vários benchmarks, como alcançar uma pontuação média de 85,9 no OCRBench, superando muitos modelos líderes. NVEagle oferece três versões para atender a diferentes requisitos de tarefas, entre as quais a versão 13B-Chat é especialmente otimizada para IA conversacional.
Por exemplo, ele pode identificar pessoas com precisão em fotos e responder perguntas como “Huang Renxun”. No entanto, construir um modelo tão poderoso também traz desafios, como o fenômeno da “alucinação” no processamento de imagens de alta resolução. A equipe de pesquisa superou com sucesso essas dificuldades e conseguiu um processamento preciso de informações visuais complexas, explorando diferentes codificadores visuais e estratégias de fusão, especialmente usando o mecanismo Mixed Expert (MoE). NVEagle foi lançado na plataforma Hugging Face para conveniência de pesquisadores e desenvolvedores. Seu excelente desempenho em tarefas como OCR, TextVQA e GQA demonstra sua poderosa capacidade de compreensão visual e geração de linguagem, estabelecendo uma nova referência para o desenvolvimento de modelos de linguagem visual.
Entrada do projeto: https://top.aibase.com/tool/eagle
demonstração: https://huggingface.co/spaces/NVEagle/Eagle-X5-13B-Chat
Destaque:
NVEagle é um modelo de linguagem visual de nova geração lançado pela NVIDIA, projetado para melhorar a compreensão de informações visuais complexas.
O modelo contém três versões, adequadas para diferentes tarefas. A versão 13B-Chat concentra-se na IA conversacional.
“Em vários benchmarks, o modelo Eagle supera muitos modelos líderes existentes, demonstrando desempenho superior.
Em suma, o surgimento do NVEagle marca um grande avanço na tecnologia de modelos de linguagem visual. Seu desempenho poderoso e facilidade de uso trarão inovação para muitos cenários de aplicação e promoverão o desenvolvimento da tecnologia de inteligência artificial. Esperamos aplicações mais amplas e pesquisas mais aprofundadas sobre o NVEagle no futuro.