benchmarks pipeline下载 - benchmarks pipeline源代码下载

benchmarks pipeline

其他源码

1.0.0

下载

S＆P AI基准演示管道

此存储库显示了如何通过S＆P AI基准测试的模型。所有配置的模型都可以在config.py中看到。可以很容易地将自己的型号添加到配置中，或使用命令行选项运行拥抱面模型。

设置

请从我们的S＆P AI基准网站的提交页面下载问题，并将它们直接保存在此文件夹中， benchmarks-pipeline/benchmark_questions.json 。

 # We recommend using python 3.10.6 with pyenv
pyenv install 3.10.6
pyenv local 3.10.6
virtualenv -p python3.10.6 .benchmarks
source .benchmarks/bin/activate

# Install the requirements in your local environment
pip install -r requirements.txt

硬件要求：大多数可以在CPU上快速运行的型号在此基准测试上表现不佳；我们建议使用与GPU的系统。要设置设备，请使用--device_map参数。

设计决策

我们提供用于评估的提示；当前，所有模型都对给定的问题类型使用相同的提示。我们允许模型多次尝试以预期格式生成答案。没有这个重试步骤，我们发现某些模型会因我们的答案解析而过度损害：它们以错误的格式产生正确的答案。因此，我们允许多达10次尝试以预期格式生成答案。默认情况下，此存储库中的源代码可以执行此操作，但可以由-t, --answer_parsing_tries_alloted参数控制。

用法

我们为config.py中的开源和Propielary模型提供了许多配置。如果要使用其中一种模型，请使用config.py中列出的代码。您还可以通过Commandline ARGS配置HugingFace模型。

python main.py -m Mistral-7B-v0.1-cot
# or:
python main.py -n mistralai/Mistral-7B-v0.1 --prompt_style cot --max_new_tokens 12 --answer_parsing_tries_alloted 1

输出CSV包含问题ID的列，并在没有标头的情况下回答。有关示例输出，请参见results/Mistral-7B-v0.1-cot.csv 。

 # A snapshot from the example output.
35c06bfe-60a7-47b4-ab82-39e138abd629,13428.0
33c7bd71-e5a3-40dd-8eb0-5000c9353977,-4.5
7b60e737-4f0a-467b-9f73-fa5714d8cdbb,41846.0
0a3f6ada-b8d3-48cc-adb4-270af0e08289,2.0
03999e5f-05ee-4b71-95ad-c5a61aae4858,2.0

配置新型号

如果要在config.py中添加一个新模型添加到_CONFIG变量。例如，以下片段使用自定义默认的max_new_tokens添加了Zephyr模型。您还必须选择要使用的提示创建者。这控制了每个问题创建的提示。我们提供两个， code_prompt_creater和cot_prompt_creator 。

 _CONFIG = {
    ...,
    "example-zepyhr-code" : lambda : (
        HFChatModel (
            "HuggingFaceH4/zephyr-7b-beta" ,
            device_map = "auto" ,
            generation_kwargs = { "max_new_tokens" : 2048 },
        ),
        code_prompt_creator ,
    ),
}

对于此特定模型，您可以直接使用命令行：

python main.py -n HuggingFaceH4/zephyr-7b-beta --prompt_style code --max_new_tokens 2048 --device_map auto

上传

将您的结果上传到S＆P AI基准！请参阅此处的https://benchmarks.kensho.com。

接触

此存储库旨在作为进一步实验的模板！

请与[email protected]联系。

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-02-22
大小 44.94KB
来自于 Github

benchmarks pipeline

S＆P AI基准演示管道

设置

设计决策

用法

配置新型号

上传

接触

ComfyUI_Pipeline_Tool

GitHub sgrebnov/cordova plugin background download

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

trigger circleci pipeline action

大禹管道

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind