El editor de Downcodes se enteró de que Apple publicó recientemente un estudio sobre las capacidades de razonamiento matemático de los modelos de lenguaje grandes (LLM), que ha atraído una amplia atención en la industria. Este estudio cuestiona el desempeño del LLM existente en el punto de referencia GSM8K e introduce un punto de referencia GSM-Symbolic mejorado para evaluar de manera más confiable las capacidades de razonamiento del LLM. Esta investigación es de gran importancia para comprender las limitaciones del LLM en el campo de las matemáticas y también proporciona información valiosa sobre la dirección de la mejora futura del LLM.
Recientemente, Apple realizó un estudio sobre las capacidades de razonamiento de los modelos de lenguaje grandes (LLM), lo que generó preocupación sobre el desempeño de estos modelos en el campo de las matemáticas.
Se sabe que el punto de referencia GSM8K se utiliza ampliamente para evaluar la capacidad de razonamiento de modelos en problemas matemáticos de la escuela primaria. Aunque el rendimiento de LLM en GSM8K ha mejorado en los últimos años, los investigadores han cuestionado la fiabilidad de este resultado. Por lo tanto, llevaron a cabo un estudio a gran escala para explorar el rendimiento de los modelos actuales de código abierto y cerrado de última generación.
Para evaluar mejor la capacidad de razonamiento del modelo, el equipo de investigación introdujo una prueba de referencia mejorada: GSM-Symbolic. Este nuevo punto de referencia utiliza plantillas simbólicas para generar diversas preguntas, lo que permite un mejor control sobre el proceso de evaluación y proporciona métricas más confiables.
El estudio encontró que el rendimiento de LLM fluctuó significativamente cuando se cambiaron los valores numéricos del problema. Más interesante aún, el rendimiento del modelo cae significativamente a medida que aumenta el número de términos en la pregunta. Los investigadores especulan que esta caída en el rendimiento indica que los LLM existentes no tienen verdaderas capacidades de razonamiento lógico, sino que simplemente imitan los pasos de razonamiento en los datos de entrenamiento.
En los experimentos, el rendimiento de todos los modelos más modernos cayó hasta un 65% al agregar solo un término aparentemente relevante. Aunque estos términos no tienen nada que ver con la cadena de razonamiento que conduce a la respuesta final, siguen teniendo un enorme impacto en el rendimiento del modelo. En general, este estudio nos proporciona una comprensión más profunda de las capacidades y limitaciones del LLM en razonamiento matemático.
Destacar:
La capacidad de razonamiento matemático de LLM muestra diferencias obvias en diferentes casos de problemas.
?A medida que aumenta la complejidad del problema, el rendimiento de LLM disminuye significativamente, especialmente después de agregar términos adicionales.
Los LLM existentes no tienen capacidades reales de razonamiento lógico y se basan principalmente en la repetición e imitación de datos de entrenamiento.
Esta investigación de Apple revela las deficiencias de los modelos de lenguaje grandes en el razonamiento matemático y proporciona direcciones importantes para futuras mejoras del modelo. Se espera que futuras investigaciones mejoren la capacidad de razonamiento lógico del LLM y la acerquen al nivel cognitivo humano. El editor de Downcodes seguirá atento a las últimas novedades en este campo.