Alibaba Cloud недавно выпустила свою новую визуальную модель Tongyi Qianwen Big Model - QWEN2,5 -VL и открыла свои три варианта размера 3B, 7B и 72B. Этот шаг знаменует собой значительный прорыв в области AI Vision Полем QWEN2.5-VL не только обладает мощными возможностями понимания изображений, но и поддерживает более одного часа понимания видео. Подписка.
Alibaba Cloud Tongyi Qianwen открыла новую визуальную модель QWEN2,5-VL и запустила три версии в 3B, 7B и 72B.
Среди них флагман QWEN2,5-VL-72B выиграл чемпионат «Визуальное понимание» в 13 авторитетных обзорах, превосходя GPT-4O и Claude3.5. Alibaba Cloud официально представила, что новый QWEN2.5-VL может более точно анализировать содержание изображения и поддерживать более 1 часа понимания видео. Эта модель может искать конкретные события в видео и суммировать ключевые моменты различных периодов времени видео, тем самым быстро и эффективно помогая пользователям извлекать ключевую информацию из видео.
Кроме того, QWEN2.5-VL может быть преобразован в визуальные агенты, которые могут управлять мобильными телефонами и компьютерами без точной настройки, достижения многоэтапных и сложных операций, таких как отправка благословений назначенным друзьям, редактирование компьютерных фотографий и мобильные билеты бронирование ожидания. QWEN2.5-VL не только хорош в идентификации общих объектов, таких как цветы, птицы, рыба и насекомые, но также анализируют текст, диаграммы, иконки, графику и макеты на изображениях. Alibaba Cloud также улучшила возможности распознавания OCR QWEN2.5-VL и улучшило много сцен, многоязычное и многонаправленное распознавание текста и позиционирование текста.
В то же время возможность извлечения информации была значительно повышена для удовлетворения растущих цифровых и интеллектуальных потребностей квалификационного обзора, финансов и торговли.
Очки:
Alibaba Cloud Tongyi Qianwen с открытым исходным кодом QWEN2,5-VL, запустив три версии 3B, 7B и 72B.
QWEN2.5-VL-72B превосходит GPT-4O и Claude3.5 в оценке визуального понимания.
QWEN2.5-VL поддерживает понимание видео в течение 1 часа и расширяет возможности распознавания OCR.
Открытый источник QWEN2.5-VL в значительной степени способствует развитию AI Vision и принесет больше возможностей для инновационных применений для всех слоев общества. Его мощные результаты и широкие перспективы применения, несомненно, будут способствовать дальнейшему развитию и популяризации технологий искусственного интеллекта.