El último modelo matemático de código abierto de Alibaba, Qwen2-Math, supera instantáneamente a GPT-4o en capacidad matemática

Autor：Eve Cole Fecha de actualización：2024-12-06 20:16:01

Alibaba Cloud ha lanzado la serie Qwen2-Math, un nuevo modelo de lenguaje a gran escala centrado en el campo de las matemáticas, que ha atraído una amplia atención en la industria. Esta serie de modelos supera a los modelos de código abierto existentes en múltiples pruebas de referencia matemáticas, e incluso supera a modelos de código cerrado conocidos como GPT-4o y Claude-3.5-Sonnet en algunos aspectos. El editor de Downcodes le brindará una explicación detallada del excelente rendimiento, la tecnología innovadora y la dirección de desarrollo futuro de los modelos de la serie Qwen2-Math, y lo llevará a explorar los últimos avances en el campo de las matemáticas de IA.

Recientemente, Alibaba Cloud lanzó la serie Qwen2-Math de modelos de lenguaje a gran escala. Este novato en inteligencia artificial centrado en el campo de las matemáticas ha atraído una gran atención en la industria desde su debut.

Como los últimos miembros de la serie Qwen2, los modelos Qwen2-Math y Qwen2-Math-Instruct-1.5B/7B/72B han demostrado una fortaleza impresionante en las capacidades de resolución de problemas matemáticos. Se informa que esta serie de modelos no solo superó a los modelos de código abierto existentes en múltiples pruebas de referencia matemáticas, sino que también superó en algunos aspectos, incluidos GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro y Llama-Well- Los modelos de código cerrado conocidos, incluido el 3.1-405B, pueden considerarse caballos oscuros en la comunidad matemática de IA.

El éxito de Qwen2-Math no es casualidad. El equipo de Alibaba Cloud ha dedicado mucho esfuerzo el año pasado a mejorar las capacidades de razonamiento de grandes modelos de lenguaje en problemas aritméticos y matemáticos. La base de esta serie de modelos es Qwen2-1.5B/7B/72B. Sobre esta base, el equipo de I + D realizó una capacitación previa en profundidad utilizando un corpus matemático profesional cuidadosamente diseñado. Este corpus único cubre textos de matemáticas en línea a gran escala y de alta calidad, libros profesionales, ejemplos de código y preguntas de exámenes masivas, e incluso incluye datos de preentrenamiento de matemáticas generados de forma independiente por Qwen2.

Particularmente digno de mención es el modelo Qwen2-Math-Instruct. Este modelo de recompensa profesional de matemáticas basado en el entrenamiento Qwen2-Math-72B adopta un método de entrenamiento innovador. El equipo de I+D combina hábilmente la señal de recompensa densa con la señal binaria de si el modelo responde correctamente o no. Esta señal combinada se utiliza como señal de supervisión para construir datos SFT (ajuste fino supervisado) mediante muestreo de rechazo y en el aprendizaje por refuerzo. después de que se aplique la tecnología de optimización relativa de políticas (GRPO) de SFT Group. Este método de entrenamiento único mejora enormemente las capacidades de resolución de problemas matemáticos del modelo.

En aplicaciones prácticas, Qwen2-Math-Instruct muestra un rendimiento sorprendente. Ya sea el AIME (Examen de Matemáticas por Invitación Estadounidense) de 2024 o el AMC (Competencia Estadounidense de Matemáticas) de 2023, este modelo ha funcionado bien en varios entornos, incluida la búsqueda codiciosa (Codicioso), la votación mayoritaria, la minimización de riesgos y otras estrategias.

Lo que es aún más emocionante es que Qwen2-Math también ha demostrado una gran fortaleza en la resolución de algunos problemas del nivel de la Olimpiada Internacional de Matemáticas (IMO). Mediante el análisis de una serie de casos de prueba, los investigadores descubrieron que Qwen2-Math no sólo puede resolver fácilmente problemas simples de competencia matemática, sino que también proporciona soluciones convincentes cuando se enfrenta a problemas complejos.

Sin embargo, el equipo de Alibaba Cloud no se detuvo ahí. Revelaron que la serie actual Qwen2-Math solo admite inglés, pero ya están desarrollando activamente modelos bilingües que admiten inglés y chino, y planean lanzar versiones multilingües en un futuro próximo. Además, el equipo continúa optimizando el modelo para mejorar aún más su capacidad para resolver problemas matemáticos más complejos y desafiantes.

Sin duda, la aparición de Qwen2-Math ha abierto nuevas posibilidades para la aplicación de la IA en el campo de las matemáticas. No solo traerá cambios revolucionarios a la industria educativa y ayudará a los estudiantes a comprender y dominar mejor el conocimiento matemático, sino que también puede desempeñar un papel importante en la investigación científica, la ingeniería y otros campos que requieren cálculos matemáticos complejos.

Página del proyecto: https://top.aibase.com/tool/qwen2-math

Descarga del modelo: https://huggingface.co/Qwen

En definitiva, la aparición de la serie de modelos Qwen2-Math marca un gran avance para la IA en el campo de las matemáticas. Su potencial de desarrollo futuro es enorme y merece una atención continua. El editor de Downcodes cree que con el avance continuo de la tecnología, Qwen2-Math brindará más posibilidades a la educación matemática y la investigación científica.