阿里云通义开源Qwen2.5-VL，视觉AI超越Claude 3.5 - AI文章

作者：Eve Cole 更新时间：2025-02-07 03:00:01

阿里云近日重磅发布了其通义千问大模型的全新视觉模型——Qwen2.5-VL，并开源了其3B、7B和72B三个不同尺寸的版本。此举标志着阿里云在AI视觉领域取得了显着突破，其旗舰版Qwen2.5-VL-72B更是力压群雄，在13项权威评测中荣获视觉理解冠军，超越了GPT-4o与Claude3. 5等竞争对手。 Qwen2.5-VL不仅具备强大的图像理解能力，更突破性地支持超过一小时的视频理解，能够高效地提取视频中的关键信息，并支持多步骤复杂操作，例如发送祝福、修图、订票等。

阿里云通义千问开源了全新的视觉模型Qwen2.5-VL，并推出了3B、7B和72B三个尺寸版本。

其中，旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军，超越了GPT-4o与Claude3.5。阿里云官方介绍称，新的Qwen2.5-VL能够更准确地解析图像内容，并突破性地支持超过1小时的视频理解。该模型可以在视频中搜索具体事件，并对视频的不同时间段进行要点总结，从而快速、高效地帮助用户提取视频中的关键信息。

阿里云通义开源Qwen2.5-VL：最强视觉AI 超越GPT-4o

此外，Qwen2.5-VL无需微调即可变身为一个能操控手机和电脑的AI视觉智能体（Visual Agents），实现多步骤复杂操作，如给指定朋友发送祝福、电脑修图、手机订票等。 Qwen2.5-VL不仅擅长识别常见物体，如花、鸟、鱼和昆虫，还能够分析图像中的文本、图表、图标、图形和布局。阿里云还提升了Qwen2.5-VL的OCR识别能力，增强了多场景、多语言和多方向的文本识别和文本定位能力。

阿里云通义开源Qwen2.5-VL：最强视觉AI 超越GPT-4o

同时，在信息抽取能力上进行了大幅度增强，以满足日益增长的资质审核、金融商务等数字化、智能化需求。

划重点:

阿里云通义千问开源Qwen2.5-VL，推出3B、7B和72B三个版本。

Qwen2.5-VL-72B在视觉理解评测中超越GPT-4o与Claude3.5。

Qwen2.5-VL支持超1小时视频理解，增强OCR识别能力。

Qwen2.5-VL的开源，将极大促进AI视觉领域的发展，为各行各业带来更多创新应用的可能性。其强大的性能和广泛的应用前景，无疑将推动人工智能技术的进一步发展和普及。