阿里巴巴达摩院于2024年8月30日发布了其多模态大型语言模型Qwen2-VL的重大更新。此次更新在图像理解、视频处理和多语言支持方面取得了显著进展,并设立了新的性能基准。Qwen2-VL模型不仅提升了对视觉信息的理解能力,还具备高级视频理解能力和集成的可视化agent功能,使其能够进行更复杂的推理和决策。此外,扩展的多语言支持使其在全球范围内更易于使用。
Qwen2-VL模型在图像理解、视频处理和多语言支持方面均实现了显著提升,为关键性能指标设定了新的基准。Qwen2-VL模型的新功能包括增强的图像理解能力,能够更准确地理解和解释视觉信息;高级视频理解能力,使得模型能够实时分析动态视频内容;集成的可视化agent功能,将模型转变为能够进行复杂推理和决策的强大代理;以及扩展的多语言支持,使其在不同语言环境中更易于访问和有效。
在技术架构上,Qwen2-VL实现了动态分辨率支持,能够处理任意分辨率的图像,无需将其分割成块,从而确保模型输入与图像固有信息之间的一致性。此外,Multimodal Rotary Position Embedding (M-ROPE) 的创新,使得模型能够同时捕获和集成1D文本、2D视觉和3D视频位置信息。
Qwen2-VL-7B模型在7B规模下成功保留了对图像、多图像和视频输入的支持,并在文档理解任务和图像多语言文本理解方面表现出色。
同时,团队还推出了针对移动部署优化的2B模型,尽管参数量只有2B,但在图像、视频和多语言理解方面表现突出。
模型链接:
Qwen2-VL-2B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Instruct
Qwen2-VL-7B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct
Qwen2-VL模型的更新标志着多模态大型语言模型技术取得了新的突破,其在图像、视频和多语言处理方面的强大能力,为未来的应用提供了广阔前景。 7B和2B两个版本的推出,也为不同应用场景提供了更灵活的选择。