此存储库显示了如何通过S&P AI基准测试的模型。所有配置的模型都可以在config.py
中看到。可以很容易地将自己的型号添加到配置中,或使用命令行选项运行拥抱面模型。
请从我们的S&P AI基准网站的提交页面下载问题,并将它们直接保存在此文件夹中, benchmarks-pipeline/benchmark_questions.json
。
# We recommend using python 3.10.6 with pyenv
pyenv install 3.10.6
pyenv local 3.10.6
virtualenv -p python3.10.6 .benchmarks
source .benchmarks/bin/activate
# Install the requirements in your local environment
pip install -r requirements.txt
硬件要求:大多数可以在CPU上快速运行的型号在此基准测试上表现不佳;我们建议使用与GPU的系统。要设置设备,请使用--device_map
参数。
我们提供用于评估的提示;当前,所有模型都对给定的问题类型使用相同的提示。我们允许模型多次尝试以预期格式生成答案。没有这个重试步骤,我们发现某些模型会因我们的答案解析而过度损害:它们以错误的格式产生正确的答案。因此,我们允许多达10次尝试以预期格式生成答案。默认情况下,此存储库中的源代码可以执行此操作,但可以由-t, --answer_parsing_tries_alloted
参数控制。
我们为config.py
中的开源和Propielary模型提供了许多配置。如果要使用其中一种模型,请使用config.py
中列出的代码。您还可以通过Commandline ARGS配置HugingFace模型。
python main.py -m Mistral-7B-v0.1-cot
# or:
python main.py -n mistralai/Mistral-7B-v0.1 --prompt_style cot --max_new_tokens 12 --answer_parsing_tries_alloted 1
输出CSV包含问题ID的列,并在没有标头的情况下回答。有关示例输出,请参见results/Mistral-7B-v0.1-cot.csv
。
# A snapshot from the example output.
35c06bfe-60a7-47b4-ab82-39e138abd629,13428.0
33c7bd71-e5a3-40dd-8eb0-5000c9353977,-4.5
7b60e737-4f0a-467b-9f73-fa5714d8cdbb,41846.0
0a3f6ada-b8d3-48cc-adb4-270af0e08289,2.0
03999e5f-05ee-4b71-95ad-c5a61aae4858,2.0
如果要在config.py中添加一个新模型添加到_CONFIG
变量。例如,以下片段使用自定义默认的max_new_tokens
添加了Zephyr模型。您还必须选择要使用的提示创建者。这控制了每个问题创建的提示。我们提供两个, code_prompt_creater
和cot_prompt_creator
。
_CONFIG = {
...,
"example-zepyhr-code" : lambda : (
HFChatModel (
"HuggingFaceH4/zephyr-7b-beta" ,
device_map = "auto" ,
generation_kwargs = { "max_new_tokens" : 2048 },
),
code_prompt_creator ,
),
}
对于此特定模型,您可以直接使用命令行:
python main.py -n HuggingFaceH4/zephyr-7b-beta --prompt_style code --max_new_tokens 2048 --device_map auto
将您的结果上传到S&P AI基准!请参阅此处的https://benchmarks.kensho.com。
此存储库旨在作为进一步实验的模板!
请与[email protected]
联系。
版权所有2024-Present Kensho Technologies,LLC。