Ученый Пую Лингби: обновление мультимодальной большой модели до версии 2.5 поддерживает более глубокое понимание контекстных изображений и видео, указывая непосредственно на GPT4V.

Автор：Eve Cole Время обновления：2024-12-15 09:32:01

Шанхайская лаборатория искусственного интеллекта недавно объявила, что разработанная ею мультимодальная большая модель InternLM-XComposer обновлена до версии 2.5 (IXC-2.5). Эта версия добилась серьезных прорывов в понимании длинного контекста, визуальном языке и расширении приложений, значительно улучшила понимание и возможности создания текстовых изображений, а также превзошла существующие модели с открытым исходным кодом в нескольких тестах производительности. Некоторые показатели даже сопоставимы с GPT-4V и Gemini Pro. сопоставимо. IXC-2.5 демонстрирует высокую производительность и широкий потенциал применения, устанавливая новый стандарт для разработки мультимодальных больших моделей.

Недавно мультимодальная большая модель InternLM-XComposer была обновлена до версии 2.5. Эта модель, разработанная Шанхайской лабораторией искусственного интеллекта, улучшила понимание текста и изображений благодаря превосходным возможностям ввода и вывода длинного контекста, а также творческим приложениям. революционные прорывы.

IXC-2.5 способен легко обрабатывать длинные контексты размером до 96 КБ благодаря чередующимся данным изображения и текста размером 24 КБ, используемым при его обучении. Эта возможность длинного контекста позволяет IXC-2.5 хорошо работать в задачах, требующих обширного контекста ввода и вывода.

По сравнению с предыдущей версией IXC-2.5 имеет три основных улучшения в визуальном понимании языка:

Понимание сверхвысокого разрешения: IXC-2.5 поддерживает изображения высокого разрешения с любым соотношением сторон посредством встроенного визуального кодера 560×560ViT.

Детальное понимание видео: рассматривайте видео как составное изображение сверхвысокого разрешения, состоящее из десятков и сотен кадров, фиксирующее детали за счет плотной выборки и более высокого разрешения.

Многооборотный диалог и диалог с несколькими изображениями: поддерживает многооборотный диалог и диалог с несколькими изображениями в свободной форме для естественного взаимодействия с людьми.

Помимо улучшения понимания, IXC-2.5 также расширяет два привлекательных приложения, используя дополнительные параметры LoRA для создания текстовых изображений:

Создание веб-страниц: на основе инструкций текстового изображения IXC-2.5 может писать исходные коды HTML, CSS и JavaScript для создания веб-страниц.

Пишите высококачественные графические статьи. Используйте специально разработанные технологии цепочки мыслей (CoT) и прямой оптимизации предпочтений (DPO), чтобы значительно улучшить качество вашего письменного контента.

IXC-2.5 оценивается по 28 тестам и превосходит существующие современные модели с открытым исходным кодом в 16 тестах. Более того, он соответствовал или превосходил GPT-4V и Gemini Pro в 16 ключевых задачах. Это достижение полностью доказывает высокую производительность и широкий потенциал применения IXC-2.5.

Адрес статьи: https://arxiv.org/pdf/2407.03320.

Адрес проекта: https://github.com/InternLM/InternLM-XComposer.

В целом, выпуск версии IXC-2.5 знаменует собой значительный прогресс в технологии мультимодальных больших моделей, а ее высокая производительность и богатые сценарии применения указывают на светлое будущее для развития технологий искусственного интеллекта в будущем. С нетерпением ждем новых и более мощных обновлений функций в будущем!