Kimi lança novo modelo SOTA: estreia do modelo de pensamento multimodal k1.5 – artigo AI

Autor：Eve Cole Data da Última Atualização：2025-01-27 08:48:01

Beijing Dark Side of the Moon Technology Co., Ltd. anunciou recentemente que seu assistente inteligente Kimi recebeu uma grande atualização e lançou o modelo de pensamento multimodal k1.5. Este modelo supera muitos modelos internacionais líderes, incluindo GPT-4o e Claude3.5Sonnet em raciocínio multimodal e capacidades de raciocínio geral, alcançando o desempenho de raciocínio multimodal da versão oficial do o1 pela primeira vez por uma empresa diferente da OpenAI. Este avanço marca o progresso significativo de Kimi no campo da inteligência artificial, e a inovação tecnológica e os esforços da equipe por trás disso são dignos de atenção. Esta atualização não apenas melhora as capacidades matemáticas, de código e de processamento multimodal visual do Kimi, mas também melhora significativamente as capacidades de raciocínio profundo do modelo por meio de uma longa expansão de contexto e métodos aprimorados de otimização de estratégia, fornecendo aos usuários um forte suporte para resolver problemas complexos.

Recentemente, Beijing Dark Side of the Moon Technology Co., Ltd. anunciou que seu assistente inteligente Kimi recebeu uma grande atualização tecnológica e lançou um novo modelo de pensamento multimodal k1.5. Este modelo atingiu níveis líderes do setor em raciocínio multimodal e capacidades de raciocínio geral, marcando outro avanço para Kimi no campo da inteligência artificial.

O modelo de pensamento multimodal k1.5 é a terceira grande atualização de Kimi para seu modelo de aprendizagem por reforço da série K em apenas três meses. Seguindo o modelo matemático k0-math lançado em novembro do ano passado e o modelo de pensamento visual k1 lançado em dezembro, o modelo k1.5 teve um desempenho excelente em testes de benchmark. No modo short-CoT, as capacidades matemáticas, de codificação, multimodais visuais e gerais do k1.5 ultrapassaram em muito os níveis dos modelos SOTA globais de pensamento curto GPT-4o e Claude3.5Sonnet, com uma vantagem de até 550%. No modo long-CoT, as capacidades de matemática, código e raciocínio multimodal do k1.5 também atingiram o nível da versão oficial do modelo Longthink SOTA OpenAI o1. Esta é a primeira vez no mundo que uma empresa diferente da OpenAI alcançou. a versão oficial da versão o1 do desempenho de raciocínio multimodal.

Por trás desta atualização estão os esforços incessantes e a inovação da equipe técnica de Kimi. Pela primeira vez, a equipe publicou um relatório detalhado de tecnologia de treinamento de modelo "Kimi k1.5: Dimensionamento para alcançar aprendizagem por reforço com a ajuda de grandes modelos de linguagem", registrando a exploração do treinamento de modelo sob o novo paradigma tecnológico.

微信截图_20250121082016.png

O relatório apontou que as principais inovações do modelo k1.5 incluem a expansão do contexto longo, que melhora a eficiência do treinamento por meio da tecnologia de expansão parcial. Observa-se também que o aumento no comprimento do contexto pode continuar a melhorar o desempenho do modelo. Além disso, métodos aprimorados de otimização de estratégia e design de estrutura concisa também fornecem suporte para o forte desempenho do modelo. É importante notar que o modelo k1.5 foi treinado conjuntamente em dados textuais e visuais, e tem a capacidade de raciocinar conjuntamente entre as duas modalidades. Ele tem um desempenho particularmente bom em habilidades matemáticas, embora seja difícil lidar com problemas gráficos geométricos. dependem parcialmente da compreensão gráfica. Ainda existem desafios.

A fim de melhorar ainda mais a capacidade de raciocínio de cadeia curta, a equipe também propôs um método long2short eficaz, usando a tecnologia Long-CoT para melhorar o modelo Short-CoT, e alcançou resultados notáveis em testes como AIME, MATH500 e LiveCodeBench, significativamente superando os métodos de pensamento de cadeia curta existentes, como GPT-4 e Claude Sonnet3.5.

A versão prévia do modelo de pensamento multimodal k1.5 será lançada em escala de cinza no site Kimi.com e na versão mais recente do aplicativo Kimi Smart Assistant. Se os usuários encontrarem o botão de troca de modelo durante o uso, eles poderão experimentar este modelo recém-atualizado. O modelo k1.5 é bom em raciocínio profundo e pode ajudar os usuários a resolver problemas complexos de código, problemas matemáticos e problemas de trabalho.

Dark Side of the Moon Technology Co., Ltd. afirmou que continuará a acelerar a atualização dos modelos de aprendizagem por reforço da série K ao longo do roteiro estabelecido em 2025, trazendo mais modalidades, capacidades em mais campos e capacidades gerais mais fortes, desbloqueando mais para possibilidade de usuários.

Link do relatório do GitHub: https://github.com/MoonshotAI/kimi-k1.5

A atualização do modelo Kimi k1.5 demonstra as capacidades de inovação contínua da Dark Side of the Moon Technology no campo da inteligência artificial. Vale a pena esperar pelo seu nível de tecnologia líder e pelos planos de desenvolvimento futuro. Acredito que Kimi trará uma experiência inteligente mais poderosa para os usuários no futuro.