El editor de Downcodes se enteró de que el equipo del Shanghai AI Lab ha abierto el proyecto LLaMA versión o1. ¡Esta es una noticia emocionante! Este proyecto tiene como objetivo reproducir o1 de OpenAI, un artefacto matemático para resolver acertijos, y ha logrado avances significativos. El equipo utilizó hábilmente tecnologías avanzadas como la búsqueda de árboles de Monte Carlo y el aprendizaje por refuerzo para superar muchas soluciones de código cerrado en la prueba comparativa AIME2024, demostrando una gran solidez técnica y un espíritu de código abierto. El proyecto de código abierto contiene conjuntos de datos, modelos y código de capacitación previamente entrenados, lo que proporciona a los desarrolladores valiosos recursos de aprendizaje.
Mucho antes del lanzamiento de la serie o1 de OpenAI, el equipo del Laboratorio de IA de Shanghai comenzó a explorar el uso de la búsqueda de árboles de Monte Carlo para mejorar las capacidades matemáticas de modelos grandes. Después del lanzamiento de o1, el equipo actualizó aún más el algoritmo, centrándose en los problemas de la Olimpiada Matemática y lo desarrolló como una versión de código abierto del Proyecto OpenAI Strawberry.
Para mejorar el rendimiento del modelo LLaMA en los problemas de la Olimpiada de Matemáticas, el equipo adoptó una estrategia de optimización por pares, que no proporciona directamente la puntuación absoluta de la respuesta, sino que compara los méritos relativos de las dos respuestas. Con este enfoque, lograron mejoras significativas en el punto de referencia más difícil AIME2024. Entre las 30 preguntas de la prueba, el modelo optimizado acertó 8 preguntas, mientras que el modelo original LLaMA-3.1-8B-Instruct solo acertó 2 preguntas. Este logro supera a otras soluciones comerciales de código cerrado, excepto o1-preview y o1-mini.
A finales de octubre, el equipo anunció que había logrado avances significativos en la reproducción de OpenAI o1 basado en la arquitectura AlphaGo Zero, lo que permitió que el modelo adquiriera capacidades de pensamiento avanzadas al interactuar con el árbol de búsqueda durante el proceso de aprendizaje sin anotaciones manuales. En menos de una semana, el proyecto era de código abierto.
Actualmente, el contenido de código abierto de LLaMA versión o1 incluye: conjuntos de datos previos al entrenamiento, modelos previos al entrenamiento y código de entrenamiento de aprendizaje por refuerzo. Entre ellos, el conjunto de datos "OpenLongCoT-Pretrain" contiene más de 100.000 datos de cadenas de pensamiento largas. Cada dato contiene un proceso completo de razonamiento de problemas matemáticos, que incluye contenido de pensamiento, resultados de puntuación, descripción del problema, coordenadas gráficas, proceso de cálculo y conclusión. derivación. Los enlaces de razonamiento completos, así como el contenido de crítica y verificación de cada paso de razonamiento, proporcionan evaluación y orientación para el proceso de razonamiento. Después de un entrenamiento previo continuo en este conjunto de datos, el modelo puede leer y generar el proceso de la cadena de pensamiento larga como o1.
Aunque el proyecto se llama LLaMA-O1, el modelo de preentrenamiento actualmente proporcionado oficialmente se basa en Gemma2 de Google. Según el modelo previamente entrenado, los desarrolladores pueden continuar realizando capacitación de aprendizaje por refuerzo. El proceso de entrenamiento incluye: usar la búsqueda de árbol de Monte Carlo para realizar la reproducción automática para generar experiencia; almacenar la experiencia en el búfer de reproducción de experiencia prioritaria; muestrear datos por lotes del búfer para actualizar los parámetros del modelo y la prioridad de la experiencia; Algunas tecnologías clave también se utilizan en el código de entrenamiento, incluido el uso de LoRA para un ajuste eficiente de los parámetros, el uso del algoritmo PPO como método de optimización de la estrategia, la implementación del algoritmo GAE para calcular la función de ventaja y el uso de la reproducción de experiencia prioritaria para mejorar el entrenamiento. eficiencia.
Vale la pena señalar que el código LLaMA-O1 se publicó bajo una cuenta de GitHub llamada SimpleBerry. La cuenta no tiene una introducción especial y parece ser relativamente misteriosa. De otras cuentas e información del sitio web oficial relacionada con SimpleBerry, solo se puede ver que su naturaleza es un laboratorio de investigación, pero no se revela más información sobre la dirección de la investigación.
Además de LLaMA-O1, otro proyecto de réplica de o1 con avances públicos es O1-Journey del equipo de la Universidad Jiao Tong de Shanghai. El equipo publicó su primer informe de progreso a principios de octubre, presentando el innovador paradigma Journey Learning y el primer modelo que integra con éxito la búsqueda y el aprendizaje en el razonamiento matemático. El equipo de desarrollo central de O1-Journey está compuesto principalmente por estudiantes universitarios de tercer y último año de la Universidad Jiao Tong de Shanghai, así como por estudiantes de doctorado de primer año del Laboratorio GAIR (Laboratorio de Investigación de Inteligencia Artificial Generativa) de la Universidad Jiao Tong de Shanghai. Incluyen a Liu Pengfei y Yao Ban, profesores asociados de la Universidad Jiao Tong de Shanghai, ex alumno y ganador del Premio Sloan, Li Yuanzhi, etc.
Dirección del artículo: https://arxiv.org/pdf/2410.02884
https://arxiv.org/pdf/2406.07394
El código abierto del proyecto LLaMA versión o1 ha aportado nueva vitalidad al campo de la resolución de problemas matemáticos de IA y también ha proporcionado a los desarrolladores valiosos recursos de aprendizaje e investigación. ¡Esperamos que en el futuro aparezcan más proyectos similares de código abierto para promover el desarrollo continuo del campo de la inteligencia artificial!