Grandes modelos de linguagem (LLMs) com janelas de contexto muito longas estão se desenvolvendo rapidamente e sua capacidade de processar informações tem atraído atenção generalizada. No entanto, existem desafios na avaliação da capacidade destes modelos para compreender e utilizar grandes quantidades de informação. Pesquisadores do Google DeepMind desenvolveram o benchmark Michelangelo para esse fim, com o objetivo de avaliar mais profundamente as capacidades de raciocínio do LLM de contexto longo e fornecer orientações para melhorias futuras do modelo.
Recentemente, grandes modelos de linguagem (LLMs) com janelas de contexto muito longas tornaram-se um tema quente de discussão. Esses modelos são capazes de lidar com centenas de milhares ou até milhões de tokens em um único prompt, abrindo muitas novas possibilidades para os desenvolvedores. No entanto, quão bem esses LLMs de contexto longo podem compreender e utilizar as grandes informações recebidas? Para resolver esse problema, os pesquisadores do Google DeepMind lançaram um novo benchmark chamado Michelangelo, projetado para avaliar as capacidades de push de contexto longo. Os resultados mostram que embora os modelos atuais de última geração tenham feito algum progresso na extração de informações de grandes quantidades de dados contextuais, eles ainda apresentam dificuldades em tarefas que exigem raciocínio e compreensão da estrutura dos dados. À medida que surgiram LLMs com longas janelas de contexto, os investigadores começaram a perceber que eram necessários novos benchmarks para avaliar as capacidades destes modelos. As avaliações existentes concentram-se principalmente em tarefas de recuperação de informação, tais como avaliações de “encontrar agulhas em palheiros”, ou seja, procurar informações específicas num grande número de contextos. No entanto, a simples recuperação não equivale à compreensão do contexto geral pelo modelo. Para resolver essas questões, Michelangelo propôs um novo método de avaliação, definindo tarefas complexas que exigem modelos para realizar raciocínio e síntese mais profundos ao processar textos longos. Por exemplo, a estrutura de avaliação contém múltiplas tarefas relacionadas à programação e à linguagem natural. Essas tarefas não apenas testam a capacidade de memória do modelo, mas também se concentram na profundidade de compreensão e processamento de informações. Na tarefa de avaliação de Michelangelo, o modelo precisa resolver três tarefas básicas de síntese de documentos longos, nomeadamente "lista potencial", "resolução de correferência multi-rodada" e vários outros cenários de aplicação. Estas tarefas não só ajudam a avaliar o desempenho de um modelo em documentos longos, mas também revelam as suas deficiências em inferência e síntese. A primeira é a “lista potencial”, onde o modelo precisa processar uma longa lista de operações em uma lista Python, filtrando instruções irrelevantes ou redundantes para determinar o estado final da lista. O segundo item é “resolução de referência multiturno”, onde o modelo precisa entender a estrutura da conversa e resolver problemas de referência em conversas longas. O terceiro item é “Não sei”. Ao responder a múltiplas questões de múltipla escolha, o modelo precisa determinar se a resposta está incluída no contexto e ser capaz de responder com precisão a “Não sei”. Os pesquisadores avaliaram Michelangelo em relação aos dez principais LLMs, incluindo diferentes versões de Gemini, GPT-4 e Claude, e testaram o modelo no contexto de até 1 milhão de tokens. O modelo Gemini tem melhor desempenho no MRCR, o modelo GPT tem bom desempenho na Lista Latente e Claude3.5Sonnet obtém a pontuação mais alta no IDK.
O editor do Downcodes concluiu: O surgimento do benchmark Michelangelo fornece uma nova perspectiva para avaliar o LLM de contexto ultralongo e também aponta as deficiências dos modelos atuais em capacidades de raciocínio complexo. No futuro, um LLM mais poderoso precisará alcançar avanços nas capacidades de raciocínio para lidar melhor com tarefas e cenários de aplicação mais complexos. Esperamos que pesquisas futuras nos tragam mais surpresas!