L'éditeur de Downcodes a appris qu'Apple avait récemment publié une étude sur les capacités de raisonnement mathématique des grands modèles de langage (LLM), qui a suscité une large attention dans l'industrie. Cette étude remet en question les performances du LLM existant sur le benchmark GSM8K et introduit un benchmark GSM-Symbolic amélioré pour évaluer de manière plus fiable les capacités de raisonnement du LLM. Cette recherche est d'une grande importance pour comprendre les limites du LLM dans le domaine des mathématiques et fournit également des informations précieuses sur l'orientation de l'amélioration future du LLM.
Récemment, Apple a mené une étude sur les capacités de raisonnement des grands modèles de langage (LLM), soulevant des inquiétudes quant aux performances de ces modèles dans le domaine des mathématiques.
On sait que le benchmark GSM8K est largement utilisé pour évaluer la capacité de raisonnement de modèles sur des problèmes mathématiques à l'école primaire. Bien que les performances du LLM sur GSM8K se soient améliorées ces dernières années, les chercheurs ont remis en question la fiabilité de ce résultat. Par conséquent, ils ont mené une étude à grande échelle pour explorer les performances des modèles open source et fermés de pointe actuels.
Afin de mieux évaluer la capacité de raisonnement du modèle, l'équipe de recherche a introduit un test de référence amélioré : GSM-Symbolic. Ce nouveau benchmark utilise des modèles symboliques pour générer diverses questions, permettant un meilleur contrôle du processus d'évaluation et fournissant des mesures plus fiables.
L'étude a révélé que les performances de LLM fluctuaient considérablement lorsque les valeurs numériques du problème étaient modifiées. Plus intéressant encore, les performances du modèle diminuent considérablement à mesure que le nombre de termes dans la question augmente. Les chercheurs supposent que cette baisse de performances indique que les LLM existants n'ont pas de véritables capacités de raisonnement logique, mais imitent simplement les étapes de raisonnement des données d'entraînement.
Lors des expériences, les performances de tous les modèles de pointe ont chuté jusqu'à 65 % lorsqu'on ajoutait un seul terme apparemment pertinent. Bien que ces termes n’aient rien à voir avec la chaîne de raisonnement qui mène à la réponse finale, ils ont néanmoins un impact énorme sur les performances du modèle. Dans l’ensemble, cette étude nous permet de mieux comprendre les capacités et les limites du LLM en raisonnement mathématique.
Souligner:
La capacité de raisonnement mathématique du LLM montre des différences évidentes selon les différentes instances de problème.
« À mesure que la complexité du problème augmente, les performances du LLM diminuent considérablement, surtout après l'ajout de termes supplémentaires.
Les LLM existants n'ont pas de réelles capacités de raisonnement logique et reposent principalement sur la répétition et l'imitation de données d'entraînement.
Cette recherche menée par Apple révèle les lacunes des grands modèles de langage en matière de raisonnement mathématique et fournit des orientations importantes pour les améliorations futures des modèles. Des recherches plus approfondies devraient améliorer la capacité de raisonnement logique du LLM et la rapprocher du niveau cognitif humain. L'éditeur de Downcodes continuera à être attentif aux dernières évolutions dans ce domaine.