Recentemente, um estudo conjunto realizado pela Universidade de Munique, o Munique Machine Learning Center e a Adobe Research avaliaram o desempenho dos 12 principais modelos de idiomas de IA, incluindo GPT-4, Gêmeos e Llama em tarefas de raciocínio conceitual de longa textura. Os resultados do estudo são alarmantes: apesar da capacidade de processar um texto ultra longo, esses modelos têm falhas significativas no raciocínio lógico complexo, e seu desempenho tem um declínio semelhante ao penhasco em textos longos. Através do sistema de benchmarking Nolima, a equipe de pesquisa evitou a duplicação de palavras -chave, revelando a fragilidade do modelo em associações conceituais e analisando profundamente as causas desse fenômeno.
Pesquisas divulgadas em conjunto pela Universidade de Munique, o Munique Machine Learning Center e a Adobe Research mostraram recentemente que 12 principais modelos de idiomas de IA, incluindo GPT-4O, Gemini1.5Pro e LLAMA-3.3-70B, estão enfrentando resultados óbvios em tarefas de raciocínio conceitual de texto longo. decaimento de desempenho. Embora esses modelos suportem o processamento de contexto de pelo menos 128.000 marcadores, seus profundos recursos de correlação lógica ainda têm limitações fundamentais.
O sistema de teste Nolima (sem correspondência de texto), desenvolvido pela equipe de pesquisa, revela a fragilidade dos modelos de IA em conexão conceitual, evitando deliberadamente o design da duplicação de palavras -chave. Por exemplo, quando o texto descreve "Yuki vive ao lado de Semperoper", o modelo precisa entender o senso comum de que "Semperoper está localizado em Dresden" antes de responder "quem esteve em Dresden".
Os resultados dos testes mostram:
1. ** O desempenho do texto longo diminui de maneira semelhante ao penhasco **: Quando o contexto se expande de 2.000 para 8.000 marcos, o desempenho da maioria dos modelos caiu significativamente; O que é quando o texto curto.
2. ** O mecanismo de atenção expõe deficiências **: O modelo é difícil de localizar com precisão informações relacionadas em textos longos e, quando as respostas principais aparecem na segunda metade do texto, a taxa de precisão diminui ainda mais.
3. ** O modelo de inferência dedicado ainda possui defeitos **: os sistemas O1, O3-Mini e Deepseek-R1 projetados para inferência complexa pontuaram menos de 50% no teste Nolima-Hard de 32k, embora esteja quase em resumo texto perfeito.
A pesquisa ressalta que a dependência excessiva do modelo no pensamento inercial de "correspondência de palavras" é o problema principal. Quando o teste exclui deliberadamente o mesmo vocabulário, mesmo que a tecnologia de prompt de cadeia de pensamento (COT) seja usada, a melhoria da capacidade de processamento de texto longa do LLAMA-3.3-70B ainda é limitada. O mais sério é que, se houver interferências de correspondência de palavras no contexto irrelevante, isso intensificará o julgamento do modelo.
"Isso revela a contradição fundamental da IA atual - é fácil expandir a janela de contexto, mas é difícil melhorar as melhores capacidades de raciocínio". Tomando o GPT-4O como exemplo, embora atinja o comprimento efetivo do contexto de 8.000 marcas, ele ainda é fraco na integração dos conceitos de parágrafos cruzados. À medida que o texto é estendido, o mecanismo de atenção do modelo gradualmente "fora de foco", dificultando a manutenção de uma cadeia lógica coerente.
Esta pesquisa soa o alarme para o desenvolvimento da IA: simplesmente aumentar o comprimento do processamento não pode romper o gargalo do raciocínio. A indústria precisa reexaminar o design da arquitetura do modelo e desenvolver mecanismos de extração e associação mais eficientes. No futuro, como fazer a IA realmente entender o texto em vez de confiar na correspondência de padrões se tornará a chave para romper os limites do processamento de texto longo.
Este estudo enfatiza as limitações dos modelos atuais de IA no raciocínio longo do texto e fornece uma referência importante para a direção futura da melhoria dos modelos de IA. Simplesmente aumentar o tamanho da janela de contexto não pode resolver o problema.