Новейшая мультимодальная большая модель общего назначения mPLUG-Owl3 от Alibaba вызвала бурю в области искусственного интеллекта благодаря своим мощным возможностям мультимодального понимания и потрясающей эффективности рассуждений. Он способен понять 2 часа видеоконтента за 4 секунды и точно ответить на различные вопросы, возникающие у пользователей, демонстрируя отличную производительность в понимании изображений, видео и текста. Этот технологический прорыв является не только важной вехой в академических кругах, но и предвещает будущие изменения в способах взаимодействия ИИ с людьми.
В эту эпоху информационного взрыва мы используем фотографии и видео, чтобы записывать свою жизнь и каждый день делиться своим счастьем. Но задумывались ли вы когда-нибудь о том, что произошло бы, если бы существовала технология, которая позволила бы машинам не только понимать эти изображения и видео, как люди, но и глубоко общаться с нами?
Новейшая мультимодальная большая модель общего назначения mPLUG-Owl3, выпущенная командой Alibaba, с ее потрясающей эффективностью и способностью понимания позволяет нам посмотреть 2-часовой фильм за 4 секунды. Это не просто модель, а скорее! Это ИИ-помощник, который может видеть, слушать, говорить и думать.
mPLUG-Owl3, имя звучит как сова в очках, умная и бдительная. Его основная способность — понимание длинных последовательностей изображений. Будь то серия фотографий или видео, он сможет понять содержание и даже сюжетную линию.
Чтобы позволить mPLUG-Owl3 обрабатывать такой большой объем информации, исследователи оснастили его модулем супермозга и гипервнимания. Этот модуль похож на супермозг для ИИ, способный одновременно обрабатывать визуальную и языковую информацию, позволяя ИИ понимать как изображения, так и связанную с ними текстовую информацию.
Модель mPLUG-Owl3 совершила крупный прорыв в области мультимодального понимания благодаря своей превосходной эффективности рассуждений. Он не только достигает уровня SOTA (современное состояние) в многосценарных тестах, таких как одно изображение, несколько изображений, видео и т. д., но также снижает задержку первого токена в 6 раз и количество изображений, которые можно обработать. на одной видеокарте А100 увеличивается в 8 раз, достигая 400 листов.
mPLUG-Owl3 может точно понимать поступающие мультимодальные знания и использовать их для ответа на вопросы. Он даже может сказать вам, на какой части знаний он основывает свое суждение, а также подробно описать основу для своего суждения.
mPLUG-Owl3 может правильно понимать содержательные связи в разных материалах и проводить глубокие рассуждения. Будь то стилистические различия или распознавание символов, он с легкостью справляется со всем этим.
mPLUG-Owl3 способен смотреть и понимать видео продолжительностью до 2 часов и начинать отвечать на вопросы пользователей в течение 4 секунд, независимо от того, о какой части видео идет вопрос.
mPLUG-Owl3 использует легкий модуль Hyper Attention для расширения блока Transformer Block в новый модуль, способный к взаимодействию графических и текстовых функций и текстовому моделированию. Такая конструкция значительно уменьшает количество вводимых дополнительных новых параметров, что упрощает обучение модели, а также повышает эффективность обучения и вывода.
Экспериментируя с широким спектром наборов данных, mPLUG-Owl3 достигает результатов SOTA в большинстве мультимодальных тестов с одним изображением. В оценках с несколькими изображениями он превосходит модели, специально оптимизированные для сценариев с несколькими изображениями. На LongVideoBench он превзошел существующие модели, показав отличные способности к пониманию длинного видео.
Выпуск Alibaba mPLUG-Owl3 — это не только технологический скачок, но и предоставляет новые возможности для применения мультимодальных крупных моделей. Поскольку технология продолжает совершенствоваться, мы с нетерпением ждем, когда mPLUG-Owl3 преподнесет еще больше сюрпризов в будущем.
Адрес статьи: https://arxiv.org/pdf/2408.04840.
Код: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3
Онлайн-опыт: https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
Появление mPLUG-Owl3 знаменует собой новый этап в развитии технологии мультимодальных больших моделей. Его возможности эффективной обработки и точного понимания открывают широкие перспективы для будущих приложений технологий искусственного интеллекта. Я считаю, что по мере развития технологии mPLUG-Owl3 принесет больше удобства и сюрпризов в жизнь людей. С нетерпением ждем новых инновационных приложений на базе mPLUG-Owl3.