Цинчэнь Юй 1,* , Цзыфань Чжэн 1,* , Шичао Сун 2,* , Чжию Ли 1,† , Фэйю Сюн 1 , Бо Тан 1 , Дин Чен 1
1 Институт исследования перспективных алгоритмов, Шанхай, 2 Китайский университет Жэньминь
Кому следует обратить внимание на нашу работу?
Важный
? Звезда нас! Отметив наш проект на GitHub, вы мгновенно будете получать все уведомления о выпусках. Мы ценим вашу поддержку!
Мы резюмируем наш основной вклад следующим образом:
Как показано на рисунке, проиллюстрированы случаи, когда такие системы оценки, как LM Eval Harness и OpenCompass, не смогли получить ключевые ответы. В частности, A/T/C/M представляют задачи с алфавитом/коротким текстом/категориальной меткой/математическими параметрами соответственно.
Создание набора контрольных данных . Чтобы упростить процесс оценки с помощью xFinder, мы стандартизировали различные основные наборы контрольных данных в единый формат JSON. Подробности реализации см. в create_benchmark_dataset.py. Если вы хотите оценить свои собственные наборы данных с помощью xFinder, обратитесь к нашему предоставленному шаблону сценария тестовый_dataset_template.py для получения инструкций по преобразованию формата.
Подготовьте пары QA и результаты LLM : соберите результаты LLM, которые вы хотите оценить. Убедитесь, что ваши данные включают следующие элементы:
Развертывание модели xFinder . Выберите для развертывания одну из следующих моделей:
После развертывания модели xFinder выполните следующие действия, чтобы запустить оценку:
# Install xfinder
conda create -n xfinder_env python=3.10 -y
conda activate xfinder_env
pip install xfinder
# Perform an evaluation with xFinder (a built-in example)
CUDA_VISIBLE_DEVICES=0 python -m xfinder.eval --run-example --model-name xFinder-qwen1505 --inference-mode local --model-path-or-url /path/to/anonymized/model/xFinder-qwen1505
Этот метод позволяет оценить несколько примеров, хранящихся в файле JSON.
# Initialize Evaluator object
evaluator = Evaluator (
model_name = "xFinder-qwen1505" , # Model name
inference_mode = "api" , # Inference mode, 'local' or 'api'
model_path_or_url = "http://your-anonymized-url/generate" , # Anonymized model path or URL
)
# Perform batch evaluation
data_path = "/path/to/your/data/example.json" # User needs to provide their own data path
accuracy = evaluator . evaluate ( data_path )
print ( f"Batch evaluation accuracy: { accuracy } " )
Этот метод позволяет вам оценить отдельные примеры, которые можно интегрировать в систему оценки LLM.
# Initialize Evaluator object
evaluator = Evaluator (
model_name = "xFinder-qwen1505" , # Model name
inference_mode = "local" , # Inference mode, 'local' or 'api'
model_path_or_url = "IAAR-Shanghai/xFinder-qwen1505" , # Anonymized model path or URL
)
# Define input for a single evaluation
question = "What is the capital of France?"
llm_output = "The capital of France is Paris."
standard_answer_range = "[ " Paris " , " Lyon " , " Marseille " ]"
key_answer_type = "short_text"
correct_answer = "Paris"
# Perform single example evaluation
result = evaluator . evaluate_single_example (
question ,
llm_output ,
standard_answer_range ,
key_answer_type ,
correct_answer
)
Кончик
demo.ipynb
для более подробных примеров.export HF_ENDPOINT=https://hf-mirror.com
чтобы использовать китайское зеркало, если вы не можете подключиться к Hugging Face.Мы демонстрируем примеры четырех типов вопросов, когда RegEx не может извлечь или часто извлекает неправильные ответы, тогда как xFinder точно извлекает ключевые ответы.
{
"key_answer_type" : " alphabet option " ,
"question" : " A man is seen playing guitar on a stage with others playing instruments behind him. The man grabs a guitar from the audience and begins playing both one after the other ... " ,
"llm_output" : " Option A is the correct choice as it describes ... " ,
"standard_answer_range" : " [['A', 'strums the guitar in the end, continues playing the guitar with the crowd following him as well as lining up next to him.'], ['B', 'continues playing the instruments and ends by waving to the crowd and walking off stage.'], ['C', 'then turns to the audience and gives a stuffed toy to the audience and continues playing.'], ['D', 'finally stops playing and moves his hands for the crowd to see.']] " ,
"gold_label" : " A " ,
"xFinder_output" : " A " ,
},
{
"key_answer_type" : " short text " ,
"question" : " If you really wanted a grape, where would you go to get it? Answer Choices: winery / fruit stand / field / kitchen / food " ,
"llm_output" : " The answer is winery / fruit stand / field / kitchen / food ... " ,
"standard_answer_range" : " [ " winery " , " fruit stand " , " field " , " kitchen " , " food " ] " ,
"gold_label" : " [No valid answer] " ,
"xFinder_output" : " [No valid answer] " ,
},
{
"key_answer_type" : " categorical label " ,
"question" : " How tall is the Sears Building ? " ,
"llm_output" : " The Sears Building is a specific structure, so the answer would be a Location ... " ,
"standard_answer_range" : " ['Abbreviation', 'Entity', 'Description', 'Person', 'Location', 'Number'] " ,
"gold_label" : " Location " ,
"xFinder_output" : " Location " ,
},
{
"key_answer_type" : " math " ,
"question" : " Mike made 69 dollars mowing lawns over the summer. If he spent 24 dollars buying new mower blades, how many 5 dollar games could he buy with the money he had left? " ,
"llm_output" : " To find out how many 5 dollar ... Let's calculate that: nn $45 / $5 = 9 nn So, Mike could buy 9 5 dollar games with the money he had left. " ,
"standard_answer_range" : " a(n) number / set / vector / matrix / interval / expression / function / equation / inequality " ,
"gold_label" : " 9 " ,
"xFinder_output" : " 9 " ,
}
Базовый уровень : OpenCompass, LM Eval Harness, UltraEval, GPT-4. Наш метод : xFinder-qwen1505, xFinder-qwen1518, xFinder-gemma7, xFinder-chatglm36base, xFinder-llama38, xFinder-llama38it.
Мы оценили их точность при извлечении ключевых ответов как из набора тестов KAF, так и из наборов обобщений. Показатель в таблице — точность.
@article{xFinder,
title={xFinder: Robust and Pinpoint Answer Extraction for Large Language Models},
author={Qingchen Yu and Zifan Zheng and Shichao Song and Zhiyu Li and Feiyu Xiong and Bo Tang and Ding Chen},
journal={arXiv preprint arXiv:2405.11874},
year={2024},
}
?Наверх