Этот репо показывает, как запустить модели над тестами S & P AI. Все настроенные модели можно увидеть в config.py
. Легко добавить свои собственные модели в конфигурацию, либо запустить модели Huggingface с помощью параметров командной линии.
Пожалуйста, загрузите вопросы на нашем странице S & P AI Benchmarks и сохраните их непосредственно в этой папке, benchmarks-pipeline/benchmark_questions.json
.
# We recommend using python 3.10.6 with pyenv
pyenv install 3.10.6
pyenv local 3.10.6
virtualenv -p python3.10.6 .benchmarks
source .benchmarks/bin/activate
# Install the requirements in your local environment
pip install -r requirements.txt
Требования к аппаратному обеспечению: большинство моделей, которые могут быстро работать на процессоре, не будут хорошо работать на этом эталонном этапе; Мы рекомендуем использовать систему с графическими процессорами. Чтобы установить устройство, используйте параметр --device_map
.
Мы предоставляем подсказки, которые мы используем для оценки; В настоящее время все модели используют одни и те же подсказки для данного типа вопроса. Мы разрешаем модели множество попыток генерировать ответ в ожидаемом формате. Без этого шага повторения мы обнаруживаем, что некоторые модели чрезвычайно пострадали от нашего анализа ответов: они дают правильный ответ в неправильном формате. Таким образом, мы разрешаем модели до 10 попыток генерировать ответ в ожидаемом формате. Исходный код в этом репо делает это по умолчанию, но может управлять параметром -t, --answer_parsing_tries_alloted
.
Мы предоставляем ряд конфигураций как для с открытым исходным кодом, так и для пробу -моделей в config.py
. Если вы хотите использовать одну из этих моделей, используйте коды, перечисленные в config.py
. Вы также можете настроить модель Huggingface в командной линии ARGS.
python main.py -m Mistral-7B-v0.1-cot
# or:
python main.py -n mistralai/Mistral-7B-v0.1 --prompt_style cot --max_new_tokens 12 --answer_parsing_tries_alloted 1
Вывод CSV включает в себя столбцы для идентификатора вопроса и ответа без заголовка. См. results/Mistral-7B-v0.1-cot.csv
для примера вывода.
# A snapshot from the example output.
35c06bfe-60a7-47b4-ab82-39e138abd629,13428.0
33c7bd71-e5a3-40dd-8eb0-5000c9353977,-4.5
7b60e737-4f0a-467b-9f73-fa5714d8cdbb,41846.0
0a3f6ada-b8d3-48cc-adb4-270af0e08289,2.0
03999e5f-05ee-4b71-95ad-c5a61aae4858,2.0
Если вы хотите добавить новую модель, добавьте к переменной _CONFIG
в config.py. Например, следующий фрагмент добавляет модель Zephyr с пользовательским по умолчанию max_new_tokens
. Вы также должны выбрать создателя приглашения, которого вы хотите использовать. Это контролирует подсказки, созданные для каждого вопроса. Мы предоставляем два, code_prompt_creater
и cot_prompt_creator
.
_CONFIG = {
...,
"example-zepyhr-code" : lambda : (
HFChatModel (
"HuggingFaceH4/zephyr-7b-beta" ,
device_map = "auto" ,
generation_kwargs = { "max_new_tokens" : 2048 },
),
code_prompt_creator ,
),
}
Для этой конкретной модели вы могли бы использовать командную линию напрямую:
python main.py -n HuggingFaceH4/zephyr-7b-beta --prompt_style code --max_new_tokens 2048 --device_map auto
Загрузите свои результаты на тесты S & P AI! Смотрите страницу здесь, на https://benchmarks.kensho.com.
Этот репо предназначен для того, чтобы служить шаблоном для дальнейших экспериментов!
Пожалуйста, обратитесь к [email protected]
с любыми вопросами.
Copyright 2024-Present Kensho Technologies, LLC.