Команда Alibaba Tongyi Qianwen запускает модель Qwen2-VL для поддержки анализа динамических видео в реальном времени

Автор：Eve Cole Время обновления：2024-12-24 09:32:01

30 августа 2024 года Alibaba Damo Academy выпустила крупное обновление своей мультимодальной крупномасштабной языковой модели Qwen2-VL. Это обновление значительно улучшает понимание изображений, обработку видео и многоязычную поддержку, а также устанавливает новые стандарты производительности. Модель Qwen2-VL не только улучшает понимание визуальной информации, но также обладает расширенными возможностями понимания видео и интегрированными функциями агента визуализации, что позволяет ей выполнять более сложные рассуждения и принятие решений. Кроме того, расширенная многоязычная поддержка упрощает использование во всем мире.

Модель Qwen2-VL позволила добиться значительных улучшений в понимании изображений, обработке видео и многоязычной поддержке, установив новый стандарт ключевых показателей производительности. Новые функции модели Qwen2-VL включают расширенные возможности понимания изображений, которые обеспечивают более точное понимание и интерпретацию визуальной информации; расширенные возможности понимания видео, которые позволяют модели анализировать динамический видеоконтент в реальном времени, а также встроенные возможности агента визуализации, которые преобразуют модель; в мощный агент для сложных рассуждений и принятия решений, а также расширенную многоязычную поддержку, что делает его более доступным и эффективным в различных языковых средах;

С точки зрения технической архитектуры Qwen2-VL реализует поддержку динамического разрешения и может обрабатывать изображения любого разрешения, не разделяя их на блоки, тем самым обеспечивая согласованность между входными данными модели и внутренней информацией изображения. Кроме того, инновация Multimodal Rotary Position Embedding (M-ROPE) позволяет модели одновременно захватывать и интегрировать 1D-текст, 2D-изображение и информацию о положении 3D-видео.

Модель Qwen2-VL-7B успешно сохраняет поддержку изображений, нескольких изображений и видеовходов в масштабе 7B и хорошо справляется с задачами по распознаванию документов и пониманию многоязычного текста на основе изображений.

В то же время команда также запустила модель 2B, оптимизированную для мобильного развертывания. Хотя количество параметров составляет всего 2B, она хорошо работает с изображениями, видео и многоязычным пониманием.

Ссылка на модель:

Qwen2-VL-2B-Инструкция: https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Instruct

Qwen2-VL-7B-Инструкция: https://www.modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct

Обновление модели Qwen2-VL знаменует собой новый прорыв в технологии мультимодальных крупномасштабных языковых моделей. Ее мощные возможности в области обработки изображений, видео и многоязычной обработки открывают широкие перспективы для будущих приложений. Запуск двух версий, 7B и 2B, также предоставляет более гибкие возможности для различных сценариев применения.