Lanzamiento de la API del modelo de comprensión de imágenes multimodal Dark Side of the Moon Kimi: artículo de IA

Autor：Eve Cole Fecha de actualización：2025-01-28 16:32:01

Beijing Dark Side of the Moon Technology Co., Ltd. ha lanzado un nuevo modelo de comprensión de imágenes multimodal moonshot-v1-vision-preview. Este modelo es una extensión de la serie moonshot-v1 y mejora significativamente la capacidad de Kimi para comprender la información de la imagen. . El modelo Vision tiene poderosas capacidades de reconocimiento de imágenes y puede distinguir con precisión diferencias sutiles, como distinguir fácilmente imágenes muy similares de muffins de arándanos y chihuahuas. Además, también funciona bien en el reconocimiento de texto OCR y puede reconocer con precisión varios documentos, incluida la escritura a mano, como recibos y pedidos de entrega urgente. Este modelo admite una variedad de funciones, como diálogo de múltiples rondas, salida de transmisión, etc., lo que brinda a los usuarios una experiencia más conveniente y eficiente.

El 15 de enero de 2025, Beijing Dark Side of the Moon Technology Co., Ltd. anunció el lanzamiento oficial del nuevo modelo de comprensión de imágenes multimodal moonshot-v1-vision-preview. Este modelo mejora las capacidades multimodales del moonshot. -Serie de modelos v1 y ayuda a Kimi a comprender mejor el mundo.

El modelo Vision tiene poderosas capacidades de reconocimiento de imágenes y puede identificar con precisión detalles y matices complejos en imágenes, ya sean alimentos o animales, y puede distinguir objetos similares pero no idénticos. Por ejemplo, frente a 16 imágenes similares de muffins de arándanos y chihuahuas que son difíciles de distinguir para el ojo humano, el modelo Vision puede distinguirlas e identificarlas con precisión.

El modelo Vision también tiene las capacidades avanzadas de reconocimiento de imágenes líderes en el país y funciona bien en escenarios de reconocimiento de texto OCR y comprensión de imágenes. Es más preciso que el escaneo de documentos ordinario y el software de reconocimiento OCR, y puede reconocer contenido escrito a mano, como recibos y pedidos de entrega urgente. .

微信截图_20250115135433.png

El modelo de visión Vision admite múltiples rondas de diálogo, salida de transmisión, llamada de herramientas, modo JSON, modo parcial y otras características, pero actualmente no admite la búsqueda en línea. No admite la creación de caché de contexto con contenido de imagen, pero sí admite la creación de caché de contexto con contenido de imagen. el uso de llamadas de caché creadas correctamente. El modelo Vision no admite imágenes en formato URL y actualmente solo admite contenido de imagen codificado en base64.

Facturación modelo

Modelo precio unitario de facturación moonshot-v1-8k-vision-preview1 millón de tokens¥12.00moonshot-v1-32k-vision-preview1 millón de tokens¥24.00moonshot-v1-128k-vision-preview1 millón de tokens¥60.00

El lanzamiento del modelo moonshot-v1-vision-preview marca un nuevo avance realizado por Beijing Dark Side of the Moon Technology Co., Ltd. en el campo de la inteligencia artificial multimodal y proporciona una nueva dirección para el desarrollo de la comprensión de imágenes. tecnología. Su potente rendimiento y sus ricas funciones le brindan amplias perspectivas de aplicación en muchos escenarios de aplicación, y vale la pena esperar su desarrollo y aplicación futuros.