北京月之暗面科技有限公司发布了全新多模态图片理解模型moonshot-v1-vision-preview,该模型是moonshot-v1系列的扩展,显著提升了Kimi对图像信息的理解能力。Vision模型拥有强大的图像识别能力,能够精确区分细微差别,例如轻松分辨相似度极高的蓝莓松饼和吉娃娃图片。此外,它在OCR文字识别方面也表现出色,能够准确识别包括潦草手写内容在内的各种文档,例如收据和快递单。该模型支持多种特性,如多轮对话、流式输出等,为用户提供更加便捷和高效的使用体验。
2025年1月15日,北京月之暗面科技有限公司宣布全新多模态图片理解模型moonshot-v1-vision-preview正式发布,该模型完善了moonshot-v1模型系列的多模态能力,助力Kimi更好地理解世界。
Vision模型具备强大的图像识别能力,能准确识别图像中的复杂细节和细微差别,无论是食物还是动物,都能区分出相似但不相同的对象。例如,面对16张相似的人眼较难区分的蓝莓松饼和吉娃娃图片,Vision模型能精确地区分和识别。
Vision模型还拥有国内领先的高级图像识别能力,在OCR文字识别和图像理解场景中表现优异,比普通文件扫描和OCR识别软件更加准确,能识别收据单、快递单等潦草的手写内容。
Vision视觉模型支持多轮对话、流式输出、工具调用、JSON Mode、Partial Mode等特性,但暂不支持联网搜索,不支持创建带有图片内容的Context Cache,但支持使用已创建成功的Cache调用Vision模型,不支持URL格式的图片,目前仅支持使用base64编码的图片内容。
模型计费
模型计费单位价格moonshot-v1-8k-vision-preview1M tokens¥12.00moonshot-v1-32k-vision-preview1M tokens¥24.00moonshot-v1-128k-vision-preview1M tokens¥60.00moonshot-v1-vision-preview模型的发布,标志着北京月之暗面科技有限公司在多模态人工智能领域取得了新的突破,为图像理解技术的发展提供了新的方向。其强大的性能和丰富的功能,使其在众多应用场景中具有广阔的应用前景,值得期待其未来的发展和应用。