Kimi lanza un nuevo modelo SOTA: debuta el modelo de pensamiento multimodal k1.5 - artículo de AI

Autor：Eve Cole Fecha de actualización：2025-01-27 08:48:01

Beijing Dark Side of the Moon Technology Co., Ltd. anunció recientemente que su asistente inteligente Kimi recibió una actualización importante y lanzó el modelo de pensamiento multimodal k1.5. Este modelo supera a muchos modelos internacionales líderes, incluidos GPT-4o y Claude3.5Sonnet, en capacidades de razonamiento multimodal y razonamiento general, logrando el rendimiento de razonamiento multimodal de la versión oficial de o1 por primera vez por parte de una empresa distinta de OpenAI. Este avance marca el progreso significativo de Kimi en el campo de la inteligencia artificial, y la innovación tecnológica y los esfuerzos del equipo detrás de esto son dignos de atención. Esta actualización no solo mejora las capacidades de procesamiento multimodal visual, de código y matemático de Kimi, sino que también mejora significativamente las capacidades de razonamiento profundo del modelo a través de una expansión de contexto prolongada y métodos de optimización de estrategias mejorados, brindando a los usuarios un fuerte soporte para resolver problemas complejos.

Recientemente, Beijing Dark Side of the Moon Technology Co., Ltd. anunció que su asistente inteligente Kimi recibió una importante actualización tecnológica y lanzó un nuevo modelo de pensamiento multimodal k1.5. Este modelo ha alcanzado niveles líderes en la industria en razonamiento multimodal y capacidades de razonamiento general, lo que marca otro avance para Kimi en el campo de la inteligencia artificial.

El modelo de pensamiento multimodal k1.5 es la tercera actualización importante de Kimi de su modelo de aprendizaje por refuerzo de la serie k en sólo tres meses. Tras el modelo matemático k0-math lanzado en noviembre del año pasado y el modelo de pensamiento visual k1 lanzado en diciembre, el modelo k1.5 tuvo un desempeño sobresaliente en las pruebas comparativas. En el modo CoT corto, las capacidades matemáticas, de codificación, multimodal visual y generales de k1.5 han superado en gran medida los niveles de los modelos SOTA globales de pensamiento corto GPT-4o y Claude3.5Sonnet, con una ventaja de hasta 550%. En el modo CoT largo, las capacidades matemáticas, de código y de razonamiento multimodal de k1.5 también han alcanzado el nivel de la versión oficial del modelo SOTA de Longthink OpenAI o1. Esta es la primera vez en el mundo que una empresa distinta de OpenAI lo logra. la versión oficial de o1 del rendimiento de razonamiento multimodal.

Detrás de esta actualización se encuentran los incansables esfuerzos y la innovación del equipo técnico de Kimi. Por primera vez, el equipo publicó un informe detallado sobre tecnología de entrenamiento de modelos "Kimi k1.5: Escalado para lograr el aprendizaje por refuerzo con la ayuda de modelos de lenguaje grandes", que registra la exploración del entrenamiento de modelos bajo el nuevo paradigma tecnológico.

微信截图_20250121082016.png

El informe señaló que las innovaciones clave del modelo k1.5 incluyen la expansión del contexto largo, que mejora la eficiencia del entrenamiento a través de tecnología de expansión parcial. También se observa que el aumento en la longitud del contexto puede continuar mejorando el rendimiento del modelo. Además, los métodos mejorados de optimización de estrategias y el diseño de marco conciso también respaldan el sólido rendimiento del modelo. Vale la pena señalar que el modelo k1.5 se entrenó conjuntamente con texto y datos visuales, y tiene la capacidad de razonar conjuntamente entre las dos modalidades. Se desempeña particularmente bien en habilidades matemáticas, aunque es difícil lidiar con problemas de gráficos geométricos. Depender parcialmente de la comprensión gráfica. Todavía hay desafíos.

Para mejorar aún más la capacidad de razonamiento del pensamiento de cadena corta, el equipo también propuso un método eficaz long2short, utilizando tecnología Long-CoT para mejorar el modelo Short-CoT, y logró resultados notables en pruebas como AIME, MATH500 y LiveCodeBench, significativamente superando los métodos de pensamiento de cadena corta existentes, como GPT-4 y Claude Sonnet3.5.

La versión preliminar del modelo de pensamiento multimodal k1.5 se lanzará en escala de grises en el sitio web Kimi.com y la última versión de la aplicación de asistente inteligente Kimi. Si los usuarios encuentran el botón de cambio de modelo durante el uso, podrán experimentar este modelo recientemente actualizado. El modelo k1.5 es bueno para el razonamiento profundo y puede ayudar a los usuarios a resolver problemas de código complejos, problemas matemáticos y problemas de trabajo.

Dark Side of the Moon Technology Co., Ltd. declaró que continuará acelerando la actualización de los modelos de aprendizaje por refuerzo de la serie k a lo largo de la hoja de ruta establecida en 2025, brindando más modalidades, capacidades en más campos y capacidades generales más sólidas, desbloqueando más para los usuarios posibilidad.

Enlace del informe de github: https://github.com/MoonshotAI/kimi-k1.5

La actualización del modelo Kimi k1.5 demuestra las capacidades de innovación continua de Dark Side of the Moon Technology en el campo de la inteligencia artificial. Vale la pena esperar su nivel tecnológico líder y sus planes de desarrollo futuros. Creo que Kimi brindará una experiencia inteligente más poderosa a los usuarios en el futuro.