このレポは、S&P AIのベンチマークを介してモデルを実行する方法を示しています。構成されたすべてのモデルは、 config.py
で見ることができます。独自のモデルを構成に追加するか、コマンドラインオプションを使用してハグFaceモデルを実行するのは簡単です。
S&P AI Benchmarks Webサイトの送信ページから質問をダウンロードし、このフォルダーbenchmarks-pipeline/benchmark_questions.json
内に直接保存してください。
# We recommend using python 3.10.6 with pyenv
pyenv install 3.10.6
pyenv local 3.10.6
virtualenv -p python3.10.6 .benchmarks
source .benchmarks/bin/activate
# Install the requirements in your local environment
pip install -r requirements.txt
ハードウェアの要件:CPUで迅速に実行できるほとんどのモデルは、このベンチマークではうまく機能しません。 GPUを使用したシステムを使用することをお勧めします。デバイスを設定するには、 --device_map
パラメーターを使用します。
評価に使用するプロンプトを提供します。現在、すべてのモデルは、特定の質問タイプに同じプロンプトを使用しています。モデルが期待される形式で回答を生成するための複数の試行を許可します。この再試行ステップがなければ、一部のモデルは、回答の解析によって不当に傷つけられていることがわかります。それらは間違った形式で正解を生成します。したがって、予想される形式で回答を生成するための最大10回の試行モデルを許可します。このリポジトリのソースコードは、デフォルトでこれを行いますが-t, --answer_parsing_tries_alloted
パラメーターによって制御できます。
config.py
のオープンソースモデルとプロポエタリモデルの両方に多くの構成を提供します。これらのモデルのいずれかを使用する場合は、 config.py
にリストされているコードを使用します。また、コマンドラインARGSによってハギングフェイスモデルを構成することもできます。
python main.py -m Mistral-7B-v0.1-cot
# or:
python main.py -n mistralai/Mistral-7B-v0.1 --prompt_style cot --max_new_tokens 12 --answer_parsing_tries_alloted 1
出力CSVには、ヘッダーなしの質問IDと回答の列が含まれています。出力の例についてはresults/Mistral-7B-v0.1-cot.csv
を参照してください。
# A snapshot from the example output.
35c06bfe-60a7-47b4-ab82-39e138abd629,13428.0
33c7bd71-e5a3-40dd-8eb0-5000c9353977,-4.5
7b60e737-4f0a-467b-9f73-fa5714d8cdbb,41846.0
0a3f6ada-b8d3-48cc-adb4-270af0e08289,2.0
03999e5f-05ee-4b71-95ad-c5a61aae4858,2.0
config.pyの_CONFIG
変数に新しいモデルを追加する場合。たとえば、次のスニペットは、カスタムデフォルトのmax_new_tokens
を使用してZephyrモデルを追加します。また、使用するプロンプト作成者を選択する必要があります。これは、各質問に対して作成されたプロンプトを制御します。 2つのcode_prompt_creater
とcot_prompt_creator
を提供します。
_CONFIG = {
...,
"example-zepyhr-code" : lambda : (
HFChatModel (
"HuggingFaceH4/zephyr-7b-beta" ,
device_map = "auto" ,
generation_kwargs = { "max_new_tokens" : 2048 },
),
code_prompt_creator ,
),
}
この特定のモデルでは、コマンドラインを直接使用できました。
python main.py -n HuggingFaceH4/zephyr-7b-beta --prompt_style code --max_new_tokens 2048 --device_map auto
結果をS&P AIベンチマークにアップロードしてください! https://benchmarks.kensho.comのページをご覧ください。
このレポは、さらなる実験のテンプレートとして機能することを目的としています!
質問がある場合は、 [email protected]
にご連絡ください。
Copyright 2024-Present Kensho Technologies、LLC。