Nos últimos anos, os grandes modelos de linguagem (LLMs) mostraram capacidades surpreendentes em vários campos, mas as suas capacidades de raciocínio matemático são surpreendentemente fracas. O editor de Downcodes interpretará para você um estudo mais recente, que revela o incrível “segredo” do LLM em operações aritméticas, e analisa as limitações deste método e a direção de melhorias futuras. Esta pesquisa não apenas aprofunda nossa compreensão do mecanismo operacional interno do LLM, mas também fornece uma referência valiosa para melhorar as capacidades matemáticas do LLM.
Recentemente, os grandes modelos de linguagem (LLM) de IA tiveram um bom desempenho em várias tarefas, incluindo escrever poesia, escrever código e conversar. Eles são simplesmente onipotentes! muitas vezes tombam ao resolver problemas aritméticos simples, o que é surpreendente.
Um estudo mais recente revelou o segredo "estranho" por trás das capacidades de raciocínio aritmético do LLM: eles não dependem de algoritmos poderosos nem de memória, mas adotam uma estratégia chamada "mistura heurística" É como um aluno que não estuda fórmulas e teoremas matemáticos seriamente, mas depende de um pouco de "pequena inteligência" e "regras práticas" para obter a resposta.
Os pesquisadores usaram o raciocínio aritmético como uma tarefa típica e conduziram análises aprofundadas de vários LLMs, como Llama3, Pythia e GPT-J. Eles descobriram que a parte do modelo LLM responsável pelos cálculos aritméticos (chamada de "circuito") é composta por muitos neurônios individuais, cada um dos quais atua como uma "calculadora em miniatura" e é responsável apenas por reconhecer padrões numéricos específicos e gerar os resultados correspondentes. responder. Por exemplo, um neurônio pode ser responsável por identificar “números cujo dígito único é 8”, enquanto outro neurônio pode ser responsável por identificar “operações de subtração cujos resultados estão entre 150 e 180”.
Essas “minicalculadoras” são como uma confusão de ferramentas e, em vez de usá-las de acordo com um algoritmo específico, o LLM usa uma combinação aleatória dessas “ferramentas” para calcular uma resposta com base no padrão de números que insere. É como um chef que não tem uma receita fixa, mas mistura à vontade com base nos ingredientes que tem em mãos, e por fim faz uma “cozinha sombria”.
O que é ainda mais surpreendente é que esta estratégia de “mistura heurística” realmente apareceu nos estágios iniciais do treinamento LLM e foi gradualmente melhorada à medida que o treinamento progredia. Isto significa que o LLM depende desta abordagem de “patchwork” para o raciocínio desde o início, em vez de desenvolver esta estratégia numa fase posterior.
Então, que problemas esse método de raciocínio aritmético “estranho” causará? Os pesquisadores descobriram que a estratégia de “mistura heurística” tem capacidade de generalização limitada e é propensa a erros. Isso ocorre porque o LLM tem um número limitado de "pequenas inteligências", e essas próprias "pequenas inteligências" também podem ter falhas que os impedem de dar respostas corretas ao encontrar novos padrões numéricos. Assim como um chef que só sabe fazer “ovos mexidos de tomate”, se de repente lhe pedirem para fazer “carne de porco desfiada com sabor de peixe”, com certeza estará com pressa e perdido.
Este estudo revelou as limitações da capacidade de raciocínio aritmético do LLM e também apontou a direção para melhorar a habilidade matemática do LLM no futuro. Os pesquisadores acreditam que confiar apenas nos métodos de treinamento existentes e na arquitetura do modelo pode não ser suficiente para melhorar as capacidades de raciocínio aritmético do LLM, e novos métodos precisam ser explorados para ajudar o LLM a aprender algoritmos mais poderosos e gerais para que possam realmente se tornar "mestres matemáticos".
Endereço do artigo: https://arxiv.org/pdf/2410.21272
Em suma, este estudo fornece uma análise aprofundada das estratégias "estranhas" do LLM no raciocínio matemático, fornece uma nova perspectiva para compreendermos as limitações do LLM e aponta a direção para pesquisas futuras. Acredito que com o desenvolvimento contínuo da tecnologia, as capacidades matemáticas do LLM serão significativamente melhoradas.