Os modelos de linguagem agora são capazes de resolver tarefas que exigem lidar com longas sequências compostas por centenas de milhares de tokens. No entanto, muitas vezes falham em tarefas que exigem o uso repetitivo de regras simples, mesmo em sequências muito mais curtas do que as observadas durante o treinamento. Por exemplo, LLMs de última geração podem encontrar itens comuns em duas listas com até 20 itens, mas falham quando as listas têm 80 itens. Neste artigo, apresentamos o MLissard, um benchmark multilíngue projetado para avaliar as habilidades dos modelos para processar e gerar textos de comprimentos variados e oferece um mecanismo para controlar a complexidade da sequência.
Nossa avaliação de modelos proprietários e de código aberto mostra um declínio consistente no desempenho em todos os modelos e linguagens à medida que a complexidade da sequência aumenta. Surpreendentemente, o uso de exemplos contextualizados em idiomas diferentes do inglês ajuda a aumentar significativamente o desempenho da extrapolação.
Na pasta data/(task)/ você encontrará os conjuntos de dados para avaliação com MLissard. Os arquivos estão no formato .json e apresentam uma breve descrição da tarefa seguida de exemplos contextualizados do idioma alvo. O campo "test_examples" contém os exemplos de teste compostos pela entrada, alvo, comprimento (len) e o bin que pertence a este comprimento.
Em results/(task)/GPT-4/ é possível encontrar as respostas geradas pelos modelos GPT-4 e Llama-3 bem como os testes de ablação, as pastas são separadas por tarefas.
A pasta src/(task)/ contém arquivos .py para gerar novos exemplos ou expandir o MLissard. Para executar: python <nome_da_tarefa>.py --output_path=my_output_path