¡La serie k1 de modelos de aprendizaje por refuerzo ya está aquí! Dark Side of the Moon Kimi lanza un modelo de pensamiento visual

Autor：Eve Cole Fecha de actualización：2024-12-21 10:32:01

Dark Side of the Moon Company lanzó hoy un nuevo modelo de pensamiento visual k1, que se basa en tecnología de aprendizaje por refuerzo y ha logrado avances significativos en la comprensión y el razonamiento de imágenes. El modelo k1 no solo admite la comprensión de imágenes de un extremo a otro, sino que también integra la tecnología de la cadena de pensamiento, extendiendo su alcance de aplicación a campos de ciencias básicas como la física y la química, y superando a los modelos líderes del mundo en múltiples pruebas de referencia. Su innovación radica en la integración de la comprensión de imágenes y la capacidad de pensamiento. Los usuarios pueden ingresar directamente información de imágenes y obtener respuestas sin recurrir a herramientas externas, lo que mejora en gran medida la eficiencia de la interacción y la experiencia del usuario.

Dark Side of the Moon anunció hoy el lanzamiento de un nuevo modelo de pensamiento visual k1. Este modelo se basa en tecnología de aprendizaje por refuerzo, que no solo respalda la comprensión de imágenes de un extremo a otro, sino que también integra la tecnología de cadena de pensamiento, extendiendo sus capacidades a campos científicos más básicos además de las matemáticas, incluidas la física y la química. En la prueba de capacidad de referencia, el modelo k1 superó a los modelos de referencia más importantes del mundo, como o1, GPT-4o y Claude3.5Sonnet de OpenAI.

El modelo de nueva generación estimula la generación de pasos de razonamiento más detallados para formar una cadena de pensamiento de alta calidad, mejorando significativamente la tasa de éxito en la resolución de tareas complejas. La integración del modelo k1 de Kimi en las capacidades de pensamiento y comprensión de imágenes proporciona a los usuarios una experiencia interactiva más fluida. Puede procesar directamente la información de la imagen ingresada por el usuario y obtener respuestas sin recurrir a OCR externo o modelos visuales adicionales.

微信截图_20241216100218.png

El entrenamiento del modelo k1 se divide en dos etapas: primero, se obtiene el modelo básico mediante preentrenamiento y luego se realiza el postentrenamiento mediante aprendizaje por refuerzo sobre esta base. El modelo básico logró una puntuación excelente de 903 en OCRBench y tuvo un rendimiento sobresaliente en los puntos de referencia MathVista-testmini, MMMU-val y DocVQA. La capacitación posterior al aprendizaje por refuerzo se optimiza en términos de calidad de los datos y eficiencia del aprendizaje, logrando nuevos avances en escala.

Kimi también ha construido de forma independiente un conjunto de pruebas estandarizadas, Science Vista, que cubre preguntas gráficas matemáticas, físicas y químicas de diversa dificultad, y estará abierto a toda la industria. Aunque el modelo k1 ha mostrado algunas limitaciones en las pruebas internas, como margen de mejora en la generalización fuera de la distribución y la tasa de éxito en problemas complejos, su rendimiento en escenas de ruido visual es mejor que otros modelos y muestra una capacidad de reconocimiento visual súper fuerte.

El modelo de pensamiento visual k1 del asistente inteligente Kimi no solo funciona bien en el campo de las matemáticas, sino que también se extiende a los campos de la física y la química, demostrando una amplia gama de capacidades científicas básicas. Además, el modelo k1 ha demostrado una capacidad general para explicar y razonar sobre problemas no matemáticos, como el contenido y la historia de fondo de los manuscritos de los científicos.

Kimi Smart Assistant espera explorar un mundo más grande con los usuarios. Se lanzó el nuevo modelo k1. Los usuarios pueden experimentar esta nueva función a través de la última versión de la aplicación móvil Kimi Smart Assistant o de la versión web.

El modelo k1 de Kimi ha obtenido buenos resultados en muchas pruebas comparativas, lo que demuestra su poderosa capacidad de pensamiento visual y sus amplias perspectivas de aplicación. Aunque todavía quedan algunas áreas por mejorar, sus avances en el reconocimiento de imágenes y la respuesta a preguntas científicas sin duda traerán un nuevo impulso de desarrollo al campo de la inteligencia artificial. ¡Los usuarios pueden experimentar la nueva experiencia interactiva que ofrece el modelo k1!