A Dark Side of the Moon Company lançou hoje um novo modelo de pensamento visual k1, que é baseado na tecnologia de aprendizagem por reforço e fez avanços significativos na compreensão e raciocínio de imagens. O modelo k1 não apenas suporta a compreensão de imagens de ponta a ponta, mas também integra tecnologia de cadeia de pensamento, estendendo seu escopo de aplicação a campos científicos básicos, como física e química, e superando os modelos líderes mundiais em vários testes de benchmark. A sua inovação reside na integração da compreensão da imagem e da capacidade de raciocínio. Os utilizadores podem inserir diretamente informações da imagem e obter respostas sem recorrer a ferramentas externas, o que melhora muito a eficiência da interação e a experiência do utilizador.
Dark Side of the Moon anunciou hoje o lançamento de um novo modelo de pensamento visual k1. Este modelo é baseado na tecnologia de aprendizagem por reforço, que não só suporta a compreensão de imagens de ponta a ponta, mas também integra a tecnologia da cadeia de pensamento, estendendo as suas capacidades a campos científicos mais básicos além da matemática, incluindo física e química. No teste de capacidade de benchmark, o modelo k1 superou os principais modelos de benchmark do mundo, como o1, GPT-4o e Claude3.5Sonnet da OpenAI.
O modelo de nova geração estimula a geração de etapas de raciocínio mais detalhadas para formar uma cadeia de pensamento de alta qualidade, melhorando significativamente a taxa de sucesso na resolução de tarefas complexas. A integração do modelo k1 de Kimi nas capacidades de compreensão e pensamento de imagens fornece aos usuários uma experiência interativa mais suave. Ele pode processar diretamente as informações da imagem inseridas pelo usuário e obter respostas sem recorrer a OCR externo ou modelos visuais adicionais.
O treinamento do modelo k1 é dividido em duas etapas: primeiro, o modelo básico é obtido por meio de pré-treinamento e, em seguida, o pós-treinamento por meio de aprendizagem por reforço é realizado nesta base. O modelo básico obteve uma pontuação excelente de 903 no OCRBench e teve um desempenho excelente nos benchmarks MathVista-testmini, MMMU-val e DocVQA. O treinamento de aprendizagem pós-reforço é otimizado em termos de qualidade de dados e eficiência de aprendizagem, alcançando novos avanços em escala.
Kimi também construiu de forma independente um conjunto de testes padronizado, Science Vista, cobrindo questões matemáticas, físicas e químicas de dificuldade variada, e estará aberto a toda a indústria. Embora o modelo k1 tenha mostrado algumas limitações em testes internos, como espaço para melhorias na generalização fora de distribuição e taxa de sucesso em problemas complexos, seu desempenho em cenas de ruído visual é melhor que outros modelos, mostrando capacidade de reconhecimento visual super forte.
O modelo de pensamento visual k1 do assistente inteligente Kimi não só tem um bom desempenho no campo da matemática, mas também se estende aos campos da física e da química, demonstrando uma ampla gama de capacidades científicas básicas. Além disso, o modelo k1 demonstrou uma capacidade geral de explicar e raciocinar sobre problemas não matemáticos, como o conteúdo e a história de fundo do manuscrito de um cientista.
Kimi Smart Assistant espera explorar um mundo maior com os usuários. O novo modelo k1 foi lançado. Os usuários podem experimentar esse novo recurso por meio da versão mais recente do aplicativo móvel Kimi Smart Assistant ou da versão web.
O modelo k1 de Kimi teve um bom desempenho em muitos testes de benchmark, demonstrando sua forte capacidade de pensamento visual e amplas perspectivas de aplicação. Embora ainda existam algumas áreas a melhorar, os seus avanços no reconhecimento de imagens e na resposta a perguntas científicas trarão, sem dúvida, um novo impulso de desenvolvimento ao campo da inteligência artificial. Os usuários podem experimentar a nova experiência interativa trazida pelo modelo k1!