O editor do Downcodes soube que os pesquisadores da Apple lançaram um novo teste de benchmark chamado GSM-Symbolic para as capacidades de raciocínio matemático de grandes modelos de linguagem (LLM). Este teste é baseado no GSM8K e foi projetado para avaliar de forma mais abrangente as capacidades de raciocínio do LLM, em vez de depender apenas de sua correspondência de padrões probabilísticos. Embora o GSM8K seja popular, ele apresenta problemas como poluição de dados e flutuações de desempenho. O GSM-Symbolic supera essas deficiências gerando problemas matemáticos diversificados a partir de modelos simbólicos, garantindo uma avaliação mais precisa.
Recentemente, os pesquisadores da Apple conduziram um estudo aprofundado das capacidades de raciocínio matemático de grandes modelos de linguagem (LLM) e lançaram um novo benchmark chamado GSM-Symbolic.
Este novo benchmark é desenvolvido com base no GSM8K, que é usado principalmente para avaliar habilidades matemáticas básicas. Embora o desempenho de muitos LLMs tenha melhorado no GSM8K, a comunidade científica ainda tem dúvidas sobre as capacidades de raciocínio destes modelos, acreditando que as métricas de avaliação existentes podem não refletir totalmente as suas verdadeiras capacidades. A pesquisa descobriu que os LLMs muitas vezes dependem da correspondência de padrões probabilísticos em vez do verdadeiro raciocínio lógico, tornando-os muito sensíveis a pequenas mudanças na entrada.
No novo estudo, os pesquisadores usaram modelos simbólicos para gerar diversos problemas matemáticos que fornecem avaliações mais confiáveis. Resultados experimentais mostram que o desempenho do LLM diminui significativamente quando o valor numérico ou a complexidade do problema aumenta. Além disso, mesmo adicionar informações que sejam superficialmente relevantes para o problema, mas que não sejam realmente irrelevantes, pode causar uma degradação do desempenho do modelo em até 65%. Esses resultados confirmam mais uma vez que o LLM depende mais da correspondência de padrões do que do raciocínio lógico formal ao raciocinar.
O conjunto de dados GSM8K contém mais de 8.000 problemas matemáticos de nível escolar e sua popularidade levanta vários riscos, como contaminação de dados e flutuações de desempenho causadas por pequenas alterações nos problemas. Para fazer face a estes desafios, o surgimento do GSM-Symbolic permite controlar eficazmente a diversidade de problemas. Este benchmark avalia mais de 20 modelos abertos e fechados usando 5.000 amostras de 100 modelos, demonstrando os insights e limitações das capacidades de raciocínio matemático do LLM.
Experimentos preliminares mostram que o desempenho de diferentes modelos no GSM-Symbolic varia significativamente e a precisão geral é inferior ao desempenho relatado no GSM8K. O estudo explorou ainda mais o impacto da mudança de nomes e valores de variáveis no LLM, e os resultados mostraram que as mudanças nos valores tiveram um impacto maior no desempenho. Além disso, a complexidade do problema também afeta diretamente a precisão, com problemas complexos levando a uma degradação significativa do desempenho. Estes resultados sugerem que o modelo pode confiar mais na correspondência de padrões do que nas verdadeiras habilidades de raciocínio ao lidar com problemas matemáticos.
Este estudo destaca as limitações das avaliações atuais do GSM8K e apresenta um novo benchmark, GSM-Symbolic, projetado para avaliar as capacidades de raciocínio matemático dos LLMs. No geral, os resultados indicam que os LLMs ainda precisam de melhorar ainda mais as suas capacidades de raciocínio lógico ao lidar com problemas complexos.
Artigo: https://arxiv.org/abs/2410.05229
Em suma, o benchmark GSM-Symbolic proposto pela Apple fornece uma nova perspectiva para avaliar as capacidades de raciocínio matemático de grandes modelos de linguagem. Também revela que o LLM ainda tem espaço para melhorias no raciocínio lógico, o que aponta o caminho para futuras melhorias no modelo. Esperamos mais pesquisas no futuro para promover ainda mais o desenvolvimento das capacidades de raciocínio do LLM.