Lançada API do modelo de compreensão de imagem multimodal Dark Side of the Moon Kimi - artigo AI

Autor：Eve Cole Data da Última Atualização：2025-01-28 16:32:01

lançou um novo modelo multimodal de compreensão de imagem moonshot-v1-vision-preview. Este modelo é uma extensão da série moonshot-v1 e melhora significativamente a capacidade de Kimi de compreender as informações da imagem. . O modelo Vision possui poderosos recursos de reconhecimento de imagem e pode distinguir com precisão diferenças sutis, como distinguir facilmente imagens muito semelhantes de muffins de mirtilo e chihuahuas. Além disso, também funciona bem no reconhecimento de texto OCR e pode reconhecer com precisão vários documentos, incluindo caligrafia rabiscada, como recibos e pedidos de entrega expressa. Este modelo suporta uma variedade de recursos, como diálogo multi-round, saída de streaming, etc., proporcionando aos usuários uma experiência mais conveniente e eficiente.

Em 15 de janeiro de 2025, Beijing Dark Side of the Moon Technology Co., Ltd. anunciou o lançamento oficial do novo modelo de compreensão de imagem multimodal moonshot-v1-vision-preview. Este modelo melhora as capacidades multimodais do moonshot. -série de modelos v1 e ajuda Kimi a entender melhor o mundo.

O modelo Vision possui poderosos recursos de reconhecimento de imagem e pode identificar com precisão detalhes e nuances complexos em imagens, sejam alimentos ou animais, e pode distinguir objetos semelhantes, mas não idênticos. Por exemplo, diante de 16 fotos semelhantes de muffins de mirtilo e chihuahuas que são difíceis de distinguir pelo olho humano, o modelo Vision pode distingui-los e identificá-los com precisão.

O modelo Vision também possui os principais recursos avançados de reconhecimento de imagem do país e tem um bom desempenho em cenários de reconhecimento de texto OCR e compreensão de imagens. É mais preciso do que o software comum de digitalização de documentos e reconhecimento de OCR e pode reconhecer conteúdo manuscrito rabiscado, como recibos e pedidos de entrega expressa. .

微信截图_20250115135433.png

O modelo de visão Vision oferece suporte a múltiplas rodadas de diálogo, saída de streaming, chamada de ferramenta, modo JSON, modo parcial e outros recursos, mas atualmente não oferece suporte a pesquisa on-line. Não oferece suporte à criação de cache de contexto com conteúdo de imagem, mas oferece suporte. o uso de chamadas de cache criadas com sucesso O modelo Vision não suporta imagens em formato URL e atualmente suporta apenas conteúdo de imagem codificado em base64.

Faturamento de modelo

Preço unitário de faturamento do modelo moonshot-v1-8k-vision-preview1M tokens¥12,00moonshot-v1-32k-vision-preview1M tokens¥24,00moonshot-v1-128k-vision-preview1M tokens¥60,00

O lançamento do modelo moonshot-v1-vision-preview marca um novo avanço feito pela Beijing Dark Side of the Moon Technology Co., Ltd. no campo da inteligência artificial multimodal e fornece uma nova direção para o desenvolvimento da compreensão de imagens tecnologia. Seu desempenho poderoso e funções ricas proporcionam amplas perspectivas de aplicação em muitos cenários de aplicação, e vale a pena aguardar seu desenvolvimento e aplicação futuros.