Alibaba объявила, что откроет исходный код своей модели визуального языка второго поколения Qwen2-VL и предоставит интерфейсы API и открытый исходный код для облегчения использования разработчиками. Модель добилась значительного прогресса в понимании изображений и видео, поддерживает несколько языков и обладает мощными возможностями визуального агента, способными автономно управлять мобильными телефонами и роботами. Qwen2-VL предлагает модели трех размеров: 2B, 7B и 72B для удовлетворения потребностей различных сценариев применения. Модель 72B работает лучше всего по большинству показателей, а модель 2B подходит для мобильных приложений.
2 сентября Tongyi Qianwen объявила об открытом исходном коде своей модели визуального языка второго поколения Qwen2-VL и запустила API для размеров 2B и 7B, а также модель количественной версии на платформе Alibaba Cloud Bailian, чтобы пользователи могли напрямую обращаться к ней.
Модель Qwen2-VL обеспечивает комплексное улучшение производительности во многих аспектах. Он может распознавать изображения с различным разрешением и соотношением сторон и достиг лучших в мире показателей производительности в таких тестах производительности, как DocVQA, RealWorldQA и MTVQA. Кроме того, модель также может понимать длинные видеоролики продолжительностью более 20 минут и поддерживать приложения для вопросов и ответов на основе видео, диалогов и создания контента. Qwen2-VL также обладает мощными возможностями визуального интеллекта и может автономно управлять мобильными телефонами и роботами для выполнения сложных рассуждений и принятия решений.
Модель способна понимать многоязычный текст на изображениях и видео, включая китайский, английский, большинство европейских языков, японский, корейский, арабский, вьетнамский и другие. Команда Тонги Цяньвэнь оценила возможности модели по шести аспектам, включая комплексные вопросы для колледжа, математические способности, понимание документов, таблиц, многоязычного текста и изображений, вопросы и ответы на общие сцены, понимание видео и возможности агента.
Как флагманская модель, Qwen2-VL-72B достигла оптимального уровня по большинству показателей. Qwen2-VL-7B обеспечивает высококонкурентную производительность благодаря экономичному масштабу параметров, в то время как Qwen2-VL-2B поддерживает множество мобильных приложений и обладает полными возможностями понимания изображений и видео на нескольких языках.
С точки зрения архитектуры модели Qwen2-VL продолжает структуру серии ViT плюс Qwen2. Все три размера моделей используют 600M ViT, поддерживая унифицированный ввод изображений и видео. Чтобы улучшить восприятие модели визуальной информации и возможности понимания видео, команда обновила архитектуру, включая реализацию полной поддержки собственного динамического разрешения и использование метода внедрения мультимодального положения вращения (M-ROPE).
Платформа Alibaba Cloud Bailian предоставляет API Qwen2-VL-72B, к которому пользователи могут обращаться напрямую. В то же время открытый исходный код Qwen2-VL-2B и Qwen2-VL-7B был интегрирован в Hugging Face Transformers, vLLM и другие сторонние платформы, и разработчики могут загружать и использовать модели через эти платформы.
Облачная платформа Alibaba Bailian:
https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api
Гитхаб:
https://github.com/QwenLM/Qwen2-VL
Обнимающее лицо:
https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
Волшебная МодельОбъем:
https://modelscope.cn/organization/qwen?tab=model
Модельный опыт:
https://huggingface.co/spaces/Qwen/Qwen2-VL
Короче говоря, открытый исходный код модели Qwen2-VL предоставляет разработчикам мощные инструменты, способствует развитию технологии модели визуального языка и открывает больше возможностей для различных сценариев приложений. Разработчики могут получить модель и код по предоставленной ссылке, чтобы начать создавать свои собственные приложения.