Загрузка xFinder - Загрузка исходного кода xFinder

xFinder

AI Исходный код

v0.2.3 Released!

Скачать

xFinder: надежное и точное извлечение ответов для больших языковых моделей

Цинчэнь Юй ^1,* , Цзыфань Чжэн ^1,* , Шичао Сун ^2,* , Чжию Ли ^1,† , Фэйю Сюн ¹ , Бо Тан ¹ , Дин Чен ¹

¹ Институт исследования перспективных алгоритмов, Шанхай, ² Китайский университет Жэньминь

По деловым вопросам обращайтесь по адресу [email protected].

Кому следует обратить внимание на нашу работу?

Если вы разрабатываете эталонный тест , вы можете использовать наш xFinder для замены традиционных методов RegEx для извлечения ключевых ответов из ответов LLM. Это поможет вам повысить точность результатов оценки, обеспечивая более надежные и содержательные сравнения и проверку эффективности модели.
Если вы являетесь разработчиком систем оценки , вы можете интегрировать наш xFinder в компонент извлечения ответов вашей платформы, чтобы повысить устойчивость и надежность процесса оценки.

Важный

? Звезда нас! Отметив наш проект на GitHub, вы мгновенно будете получать все уведомления о выпусках. Мы ценим вашу поддержку!

? Новости

[2024/10] Мы открыли исходный код KAF-Dataset и выпустили xFinder в виде пакета PyPI.
[2024/09] xFinder успешно интегрирован в OpenCompass!
[2024/08] Мы обновили xFinder: модель теперь поддерживает обработку как на английском, так и на китайском языках.
[2024/05] Мы выпустили xFinder: надежное и точное извлечение ответов для больших языковых моделей. Проверьте бумагу.

Обзор

Абстрактный

Постоянное развитие моделей больших языков (LLM) привлекло все большее внимание к критической проблеме разработки справедливых и надежных методов оценки их производительности. В частности, возникновение субъективных или несубъективных явлений мошенничества, таких как утечка тестового набора и быстрое переобучение формата, создает серьезные проблемы для надежной оценки LLM. Поскольку системы оценки часто используют регулярные выражения (RegEx) для извлечения ответов, некоторые модели могут корректировать свои ответы в соответствии с конкретными форматами, которые легко извлекаются с помощью RegEx. Тем не менее, модуль извлечения ключевых ответов на основе RegEx часто страдает от ошибок извлечения. В этом документе проводится всесторонний анализ всей цепочки оценки LLM, демонстрируя, что оптимизация модуля извлечения ключевых ответов может повысить точность извлечения, уменьшить зависимость LLM от конкретных форматов ответов и повысить надежность оценки LLM. Для решения этих проблем мы предлагаем xFinder — модель, специально разработанную для извлечения ключевых ответов. В рамках этого процесса мы создаем специализированный набор данных — набор данных Key Answer Finder (KAF), чтобы обеспечить эффективное обучение и оценку модели. Результаты обобщения и оценки в реальных сценариях показывают, что самая маленькая модель xFinder всего с 500 миллионами параметров достигает средней точности извлечения ответа 93,42%. Напротив, точность RegEx в лучшей системе оценки составляет 74,38%. xFinder демонстрирует более высокую надежность и точность по сравнению с существующими системами оценки.

Мы резюмируем наш основной вклад следующим образом:

Мы предоставляем всесторонний обзор процессов оценки LLM в отрасли, определяя критические факторы, которые могут привести к ненадежным результатам оценки.
Мы представляем xFinder, модель, специально разработанную для извлечения ключевых ответов. Набор данных KAF поддерживает эффективное обучение и оценку.
В наших обширных экспериментах мы показываем, что методы оценки на основе RegEx ненадежны, в то время как наша модель xFinder значительно повышает надежность.

Как показано на рисунке, проиллюстрированы случаи, когда такие системы оценки, как LM Eval Harness и OpenCompass, не смогли получить ключевые ответы. В частности, A/T/C/M представляют задачи с алфавитом/коротким текстом/категориальной меткой/математическими параметрами соответственно.

Быстрый старт

Создание набора контрольных данных . Чтобы упростить процесс оценки с помощью xFinder, мы стандартизировали различные основные наборы контрольных данных в единый формат JSON. Подробности реализации см. в create_benchmark_dataset.py. Если вы хотите оценить свои собственные наборы данных с помощью xFinder, обратитесь к нашему предоставленному шаблону сценария тестовый_dataset_template.py для получения инструкций по преобразованию формата.
Подготовьте пары QA и результаты LLM : соберите результаты LLM, которые вы хотите оценить. Убедитесь, что ваши данные включают следующие элементы:
- Оригинальный вопрос
- Ключевой тип ответа (варианты: алфавит, короткий_текст, категориальная_метка, математика)
- Выход LLM
- Стандартный диапазон ответов
Развертывание модели xFinder . Выберите для развертывания одну из следующих моделей:
- xFinder-qwen1505
- xFinder-llama38it

После развертывания модели xFinder выполните следующие действия, чтобы запустить оценку:

 # Install xfinder
conda create -n xfinder_env python=3.10 -y
conda activate xfinder_env
pip install xfinder

# Perform an evaluation with xFinder (a built-in example)
CUDA_VISIBLE_DEVICES=0 python -m xfinder.eval --run-example --model-name xFinder-qwen1505 --inference-mode local --model-path-or-url /path/to/anonymized/model/xFinder-qwen1505

xFinder поддерживает две формы оценки

Пакетная оценка обобщенных экспериментальных результатов

Этот метод позволяет оценить несколько примеров, хранящихся в файле JSON.

 # Initialize Evaluator object
evaluator = Evaluator (
    model_name = "xFinder-qwen1505" ,   # Model name
    inference_mode = "api" ,            # Inference mode, 'local' or 'api'
    model_path_or_url = "http://your-anonymized-url/generate" ,  # Anonymized model path or URL
)
# Perform batch evaluation
data_path = "/path/to/your/data/example.json"  # User needs to provide their own data path
accuracy = evaluator . evaluate ( data_path )

print ( f"Batch evaluation accuracy: { accuracy } " )

? Режим одноэкземплярной оценки

Этот метод позволяет вам оценить отдельные примеры, которые можно интегрировать в систему оценки LLM.

 # Initialize Evaluator object
evaluator = Evaluator (
    model_name = "xFinder-qwen1505" ,   # Model name
    inference_mode = "local" ,            # Inference mode, 'local' or 'api'
    model_path_or_url = "IAAR-Shanghai/xFinder-qwen1505" ,  # Anonymized model path or URL
)
# Define input for a single evaluation
question = "What is the capital of France?"
llm_output = "The capital of France is Paris."
standard_answer_range = "[ " Paris " , " Lyon " , " Marseille " ]"
key_answer_type = "short_text"
correct_answer = "Paris"
# Perform single example evaluation
result = evaluator . evaluate_single_example (
    question ,
    llm_output ,
    standard_answer_range ,
    key_answer_type ,
    correct_answer
)

Кончик

Обратитесь к demo.ipynb для более подробных примеров.
Запустите export HF_ENDPOINT=https://hf-mirror.com чтобы использовать китайское зеркало, если вы не можете подключиться к Hugging Face.
xFinder в настоящее время поддерживает загрузку с помощью метода API, развернутого vllm.
Мы предоставляем скрипты для тонкой настройки xFinder в xfinder_training.

Примеры: RegEx и xFinder.

Мы демонстрируем примеры четырех типов вопросов, когда RegEx не может извлечь или часто извлекает неправильные ответы, тогда как xFinder точно извлекает ключевые ответы.

{
    "key_answer_type" : " alphabet option " ,
    "question" : " A man is seen playing guitar on a stage with others playing instruments behind him. The man grabs a guitar from the audience and begins playing both one after the other ... " ,
    "llm_output" : " Option A is the correct choice as it describes ... " ,
    "standard_answer_range" : " [['A', 'strums the guitar in the end, continues playing the guitar with the crowd following him as well as lining up next to him.'], ['B', 'continues playing the instruments and ends by waving to the crowd and walking off stage.'], ['C', 'then turns to the audience and gives a stuffed toy to the audience and continues playing.'], ['D', 'finally stops playing and moves his hands for the crowd to see.']] " ,
    "gold_label" : " A " ,
    "xFinder_output" : " A " ,
},
{
    "key_answer_type" : " short text " ,
    "question" : " If you really wanted a grape, where would you go to get it? Answer Choices: winery / fruit stand / field / kitchen / food " ,
    "llm_output" : " The answer is winery / fruit stand / field / kitchen / food ... " ,
    "standard_answer_range" : " [ " winery " , " fruit stand " , " field " , " kitchen " , " food " ] " ,
    "gold_label" : " [No valid answer] " ,
    "xFinder_output" : " [No valid answer] " ,
},
{
    "key_answer_type" : " categorical label " ,
    "question" : " How tall is the Sears Building ? " ,
    "llm_output" : " The Sears Building is a specific structure, so the answer would be a Location ... " ,
    "standard_answer_range" : " ['Abbreviation', 'Entity', 'Description', 'Person', 'Location', 'Number'] " ,
    "gold_label" : " Location " ,
    "xFinder_output" : " Location " ,
},
{
    "key_answer_type" : " math " ,
    "question" : " Mike made 69 dollars mowing lawns over the summer. If he spent 24 dollars buying new mower blades, how many 5 dollar games could he buy with the money he had left? " ,
    "llm_output" : " To find out how many 5 dollar ... Let's calculate that: nn $45 / $5 = 9 nn So, Mike could buy 9 5 dollar games with the money he had left. " ,
    "standard_answer_range" : " a(n) number / set / vector / matrix / interval / expression / function / equation / inequality " ,
    "gold_label" : " 9 " ,
    "xFinder_output" : " 9 " ,
}

Результаты точности экстракции

Базовый уровень : OpenCompass, LM Eval Harness, UltraEval, GPT-4. Наш метод : xFinder-qwen1505, xFinder-qwen1518, xFinder-gemma7, xFinder-chatglm36base, xFinder-llama38, xFinder-llama38it.

Мы оценили их точность при извлечении ключевых ответов как из набора тестов KAF, так и из наборов обобщений. Показатель в таблице — точность.

Цитирование

 @article{xFinder,
      title={xFinder: Robust and Pinpoint Answer Extraction for Large Language Models}, 
      author={Qingchen Yu and Zifan Zheng and Shichao Song and Zhiyu Li and Feiyu Xiong and Bo Tang and Ding Chen},
      journal={arXiv preprint arXiv:2405.11874},
      year={2024},
}