Download xFinder - download do código-fonte xFinder

xFinder

Código-Fonte de IA

v0.2.3 Released!

Baixar

xFinder: Extração de respostas robusta e precisa para modelos de linguagem grande

Qingchen Yu ^1,* , Zifan Zheng ^1,* , Shichao Song ^2,* , Zhiyu Li ^1,† , Feiyu Xiong ¹ , Bo Tang ¹ , Ding Chen ¹

¹ Instituto de Pesquisa de Algoritmos Avançados, Xangai, ² Universidade Renmin da China

Para consultas comerciais, entre em contato conosco pelo e-mail [email protected].

Quem deve prestar atenção ao nosso trabalho?

Se você estiver desenvolvendo um Benchmark , poderá usar nosso xFinder para substituir os métodos RegEx tradicionais para extrair respostas principais de respostas LLM. Isso o ajudará a melhorar a precisão dos resultados de sua avaliação, permitindo comparações e validações mais confiáveis e significativas do desempenho do modelo.
Se você é um designer de estruturas de avaliação , pode integrar nosso xFinder ao componente de extração de respostas da sua estrutura para aumentar a robustez e a confiabilidade do processo de avaliação.

Importante

? Estrela-nos! Ao estrelar nosso projeto no GitHub, você receberá todas as notificações de lançamento instantaneamente. Agradecemos seu apoio!

? Notícias

[2024/10] Abrimos o código-fonte do KAF-Dataset e lançamos o xFinder como um pacote PyPI.
[2024/09] O xFinder foi integrado com sucesso ao OpenCompass!
[2024/08] Atualizamos o xFinder: o modelo agora suporta processamento em inglês e chinês.
[2024/05] Lançamos xFinder: Extração de respostas robusta e precisa para modelos de linguagem grande. Confira o papel.

Visão geral

Resumo

O avanço contínuo de grandes modelos de linguagem (LLMs) trouxe cada vez mais atenção para a questão crítica do desenvolvimento de métodos justos e confiáveis para avaliar o seu desempenho. Particularmente, o surgimento de fenômenos de trapaça subjetivos ou não subjetivos, como vazamento de conjuntos de testes e sobreajuste imediato de formato, apresenta desafios significativos para a avaliação confiável de LLMs. Como as estruturas de avaliação costumam utilizar Expressões Regulares (RegEx) para extração de respostas, alguns modelos podem ajustar suas respostas para cumprir formatos específicos que são facilmente extraíveis pelo RegEx. No entanto, o módulo de extração de respostas chave baseado em RegEx freqüentemente sofre erros de extração. Este artigo conduz uma análise abrangente de toda a cadeia de avaliação do LLM, demonstrando que a otimização do módulo de extração de respostas principais pode melhorar a precisão da extração, reduzir a dependência dos LLMs de formatos de resposta específicos e aumentar a confiabilidade da avaliação do LLM. Para resolver essas questões, propomos o xFinder, um modelo projetado especificamente para extração de respostas-chave. Como parte desse processo, criamos um conjunto de dados especializado, o conjunto de dados Key Answer Finder (KAF), para garantir treinamento e avaliação eficazes do modelo. Através de testes de generalização e avaliação em cenários do mundo real, os resultados demonstram que o menor modelo xFinder com apenas 500 milhões de parâmetros atinge uma precisão média de extração de respostas de 93,42%. Em contraste, a precisão do RegEx na melhor estrutura de avaliação é de 74,38%. O xFinder apresenta maior robustez e maior precisão em comparação com estruturas de avaliação existentes.

Resumimos nossas principais contribuições da seguinte forma:

Fornecemos uma revisão abrangente dos processos de avaliação de LLM na indústria, identificando fatores críticos que podem levar a resultados de avaliação não confiáveis.
Apresentamos o xFinder, um modelo projetado especificamente para extração de respostas chave. O conjunto de dados KAF apoia a sua formação e avaliação eficazes.
Em nossos extensos experimentos, demonstramos que os métodos de avaliação baseados em RegEx não são confiáveis, enquanto nosso modelo xFinder melhora significativamente a confiabilidade.

Conforme mostrado na figura, são ilustrados casos em que estruturas de avaliação como LM Eval Harness e OpenCompass não conseguiram extrair respostas-chave. Especificamente, A/T/C/M representam tarefas com opções de alfabeto/texto curto/rótulo categórico/matemática, respectivamente.

Início rápido

Criar conjunto de dados de referência : para agilizar o processo de avaliação usando o xFinder, padronizamos vários conjuntos de dados de referência convencionais em um formato JSON unificado. Para obter detalhes de implementação, consulte create_benchmark_dataset.py. Se você deseja avaliar seus próprios conjuntos de dados usando o xFinder, consulte nosso modelo de script fornecido benchmark_dataset_template.py para obter orientação sobre conversão de formato.
Prepare pares de controle de qualidade e resultados de LLM : Reúna os resultados de LLM que deseja avaliar. Certifique-se de que seus dados incluam os seguintes elementos:
- Pergunta original
- Tipo de resposta principal (opções: alfabeto, texto_curto, rótulo_categórico, matemática)
- Saída LLM
- Intervalo de resposta padrão
Implante o modelo xFinder : selecione um dos seguintes modelos para implantação:
- xFinder-qwen1505
- xFinder-llama38it

Após implantar o modelo xFinder, siga estas etapas para executar uma avaliação:

 # Install xfinder
conda create -n xfinder_env python=3.10 -y
conda activate xfinder_env
pip install xfinder

# Perform an evaluation with xFinder (a built-in example)
CUDA_VISIBLE_DEVICES=0 python -m xfinder.eval --run-example --model-name xFinder-qwen1505 --inference-mode local --model-path-or-url /path/to/anonymized/model/xFinder-qwen1505

xFinder oferece suporte a duas formas de avaliação

Avaliação em lote de resultados experimentais resumidos

Este método permite avaliar vários exemplos armazenados em um arquivo JSON.

 # Initialize Evaluator object
evaluator = Evaluator (
    model_name = "xFinder-qwen1505" ,   # Model name
    inference_mode = "api" ,            # Inference mode, 'local' or 'api'
    model_path_or_url = "http://your-anonymized-url/generate" ,  # Anonymized model path or URL
)
# Perform batch evaluation
data_path = "/path/to/your/data/example.json"  # User needs to provide their own data path
accuracy = evaluator . evaluate ( data_path )

print ( f"Batch evaluation accuracy: { accuracy } " )

? Modo de avaliação de instância única

Este método permite avaliar exemplos individuais, que podem ser integrados em uma estrutura de avaliação LLM.

 # Initialize Evaluator object
evaluator = Evaluator (
    model_name = "xFinder-qwen1505" ,   # Model name
    inference_mode = "local" ,            # Inference mode, 'local' or 'api'
    model_path_or_url = "IAAR-Shanghai/xFinder-qwen1505" ,  # Anonymized model path or URL
)
# Define input for a single evaluation
question = "What is the capital of France?"
llm_output = "The capital of France is Paris."
standard_answer_range = "[ " Paris " , " Lyon " , " Marseille " ]"
key_answer_type = "short_text"
correct_answer = "Paris"
# Perform single example evaluation
result = evaluator . evaluate_single_example (
    question ,
    llm_output ,
    standard_answer_range ,
    key_answer_type ,
    correct_answer
)

Dica

Consulte demo.ipynb para exemplos mais detalhados.
Execute export HF_ENDPOINT=https://hf-mirror.com para usar o espelho chinês se você não conseguir se conectar ao Hugging Face.
Atualmente, o xFinder oferece suporte ao carregamento por meio do método API implantado pelo vllm.
Fornecemos scripts para ajuste fino do xFinder em xfinder_training.

Exemplos: RegEx vs.

Demonstramos casos em quatro tipos de perguntas em que o RegEx falha ao extrair ou extrai frequentemente respostas incorretas, enquanto o xFinder extrai com precisão as respostas principais.

{
    "key_answer_type" : " alphabet option " ,
    "question" : " A man is seen playing guitar on a stage with others playing instruments behind him. The man grabs a guitar from the audience and begins playing both one after the other ... " ,
    "llm_output" : " Option A is the correct choice as it describes ... " ,
    "standard_answer_range" : " [['A', 'strums the guitar in the end, continues playing the guitar with the crowd following him as well as lining up next to him.'], ['B', 'continues playing the instruments and ends by waving to the crowd and walking off stage.'], ['C', 'then turns to the audience and gives a stuffed toy to the audience and continues playing.'], ['D', 'finally stops playing and moves his hands for the crowd to see.']] " ,
    "gold_label" : " A " ,
    "xFinder_output" : " A " ,
},
{
    "key_answer_type" : " short text " ,
    "question" : " If you really wanted a grape, where would you go to get it? Answer Choices: winery / fruit stand / field / kitchen / food " ,
    "llm_output" : " The answer is winery / fruit stand / field / kitchen / food ... " ,
    "standard_answer_range" : " [ " winery " , " fruit stand " , " field " , " kitchen " , " food " ] " ,
    "gold_label" : " [No valid answer] " ,
    "xFinder_output" : " [No valid answer] " ,
},
{
    "key_answer_type" : " categorical label " ,
    "question" : " How tall is the Sears Building ? " ,
    "llm_output" : " The Sears Building is a specific structure, so the answer would be a Location ... " ,
    "standard_answer_range" : " ['Abbreviation', 'Entity', 'Description', 'Person', 'Location', 'Number'] " ,
    "gold_label" : " Location " ,
    "xFinder_output" : " Location " ,
},
{
    "key_answer_type" : " math " ,
    "question" : " Mike made 69 dollars mowing lawns over the summer. If he spent 24 dollars buying new mower blades, how many 5 dollar games could he buy with the money he had left? " ,
    "llm_output" : " To find out how many 5 dollar ... Let's calculate that: nn $45 / $5 = 9 nn So, Mike could buy 9 5 dollar games with the money he had left. " ,
    "standard_answer_range" : " a(n) number / set / vector / matrix / interval / expression / function / equation / inequality " ,
    "gold_label" : " 9 " ,
    "xFinder_output" : " 9 " ,
}

Resultados de precisão de extração

Linha de base : OpenCompass, LM Eval Harness, UltraEval, GPT-4. Nosso método : xFinder-qwen1505, xFinder-qwen1518, xFinder-gemma7, xFinder-chatglm36base, xFinder-llama38, xFinder-llama38it.

Avaliamos sua precisão na extração de respostas-chave tanto do conjunto de testes KAF quanto dos conjuntos de generalização. A métrica na tabela é a precisão.

Citação

 @article{xFinder,
      title={xFinder: Robust and Pinpoint Answer Extraction for Large Language Models}, 
      author={Qingchen Yu and Zifan Zheng and Shichao Song and Zhiyu Li and Feiyu Xiong and Bo Tang and Ding Chen},
      journal={arXiv preprint arXiv:2405.11874},
      year={2024},
}

TODOs

Clique em mim para mostrar todos os TODOs

façanha: suporte à substituição rápida de RegEx no OpenCompass.
façanha: adicione conjuntos de dados de exemplo adicionais ao pacote xfinder PyPI.
façanha: adicionar métodos de carregamento de modelo.
docs: estender documentos de construção de conjunto de dados.
documentos: adicionar tutorial em vídeo.