NVIDIA объединяется с исследовательскими группами Технологического института Джорджии, UMD и HKPU для запуска новой модели визуального языка NVEagle. Эта мультимодальная модель большого языка (MLLM) может понимать изображения и вести разговор на естественном языке, что делает ее суперпомощником, который может «видеть и говорить». Он значительно улучшает понимание визуальной информации за счет преобразования изображений в визуальные разметки и объединения их с встраиванием текста, а также хорошо работает в нескольких тестах, например, достигнув среднего балла 85,9 на OCRBench, превосходя многие ведущие модели. NVEagle предоставляет три версии для удовлетворения различных требований задач, среди которых версия 13B-Chat специально оптимизирована для диалогового ИИ.
Например, он может точно идентифицировать людей на фотографиях и отвечать на такие вопросы, как «Хуан Жэньсюнь». Однако построение такой мощной модели также сопряжено с проблемами, такими как феномен «галлюцинации» при обработке изображений с высоким разрешением. Исследовательская группа успешно преодолела эти трудности и добилась точной обработки сложной визуальной информации, исследуя различные визуальные кодеры и стратегии объединения, особенно с использованием механизма Mixed Expert (MoE). NVEagle был выпущен на платформе Hugging Face для удобства исследователей и разработчиков. Его превосходная производительность в таких задачах, как OCR, TextVQA и GQA, демонстрирует его мощные возможности визуального понимания и генерации языка, устанавливая новый стандарт для разработки визуальных языковых моделей.
Вход в проект: https://top.aibase.com/tool/eagle
демо: https://huggingface.co/spaces/NVEagle/Eagle-X5-13B-Chat
Выделять:
NVEagle — это модель визуального языка нового поколения, выпущенная NVIDIA и предназначенная для улучшения понимания сложной визуальной информации.
Модель содержит три версии, подходящие для разных задач. Версия 13B-Chat ориентирована на диалоговый ИИ.
«По нескольким критериям модель Eagle превосходит многие существующие ведущие модели, демонстрируя превосходную производительность.
В целом, появление NVEagle знаменует собой крупный прорыв в технологии визуальных языковых моделей. Его высокая производительность и простота использования принесут инновации во многие сценарии применения и будут способствовать дальнейшему развитию технологий искусственного интеллекта. Мы с нетерпением ожидаем более широкого применения и более глубоких исследований NVEagle в будущем.