O editor do Downcodes soube que a Apple lançou recentemente um estudo sobre as capacidades de raciocínio matemático de grandes modelos de linguagem (LLM), que atraiu ampla atenção na indústria. Este estudo questiona o desempenho do LLM existente no benchmark GSM8K e introduz um benchmark GSM-Symbolic aprimorado para avaliar de forma mais confiável as capacidades de raciocínio do LLM. Esta pesquisa é de grande importância para a compreensão das limitações do LLM no campo da matemática e também fornece informações valiosas sobre a direção da melhoria futura do LLM.
Recentemente, a Apple conduziu um estudo sobre as capacidades de raciocínio de grandes modelos de linguagem (LLM), levantando preocupações sobre o desempenho destes modelos no campo da matemática.
Sabe-se que o benchmark GSM8K é amplamente utilizado para avaliar a capacidade de raciocínio de modelos em problemas de matemática do ensino fundamental. Embora o desempenho do LLM no GSM8K tenha melhorado nos últimos anos, os pesquisadores questionaram a confiabilidade deste resultado. Portanto, eles conduziram um estudo em grande escala para explorar o desempenho dos atuais modelos de código aberto e de código fechado de última geração.
Para avaliar melhor a capacidade de raciocínio do modelo, a equipe de pesquisa introduziu um teste de benchmark aprimorado - GSM-Symbolic. Este novo benchmark utiliza modelos simbólicos para gerar diversas questões, permitindo melhor controle do processo de avaliação e fornecendo métricas mais confiáveis.
O estudo descobriu que o desempenho do LLM flutuou significativamente quando os valores numéricos do problema foram alterados. O mais interessante é que o desempenho do modelo cai significativamente à medida que aumenta o número de termos na questão. Os pesquisadores especulam que essa queda no desempenho indica que os LLMs existentes não possuem verdadeiras capacidades de raciocínio lógico, mas simplesmente imitam as etapas de raciocínio nos dados de treinamento.
Em experimentos, o desempenho de todos os modelos de última geração caiu até 65% ao adicionar apenas um termo aparentemente relevante. Embora estes termos não tenham nada a ver com a cadeia de raciocínio que leva à resposta final, ainda assim têm um enorme impacto no desempenho do modelo. No geral, este estudo nos fornece uma compreensão mais profunda das capacidades e limitações do LLM no raciocínio matemático.
Destaque:
A capacidade de raciocínio matemático do LLM mostra diferenças óbvias em diferentes instâncias do problema.
?À medida que a complexidade do problema aumenta, o desempenho do LLM diminui significativamente, especialmente após a adição de termos adicionais.
Os LLMs existentes não possuem capacidades reais de raciocínio lógico e dependem principalmente da repetição e imitação de dados de treinamento.
Esta pesquisa da Apple revela as deficiências dos grandes modelos de linguagem no raciocínio matemático e fornece orientações importantes para melhorias futuras do modelo. Espera-se que novas pesquisas melhorem a capacidade de raciocínio lógico do LLM e o aproximem do nível cognitivo humano. O editor do Downcodes continuará atento aos últimos desenvolvimentos nesta área.