benchmarks pipelineのダウンロード - benchmarks pipelineソースコードのダウンロード

benchmarks pipeline

その他のソースコード

1.0.0

ダウンロード

S＆P AIベンチマークデモパイプライン

このレポは、S＆P AIのベンチマークを介してモデルを実行する方法を示しています。構成されたすべてのモデルは、 config.pyで見ることができます。独自のモデルを構成に追加するか、コマンドラインオプションを使用してハグFaceモデルを実行するのは簡単です。

設定

S＆P AI Benchmarks Webサイトの送信ページから質問をダウンロードし、このフォルダーbenchmarks-pipeline/benchmark_questions.json内に直接保存してください。

 # We recommend using python 3.10.6 with pyenv
pyenv install 3.10.6
pyenv local 3.10.6
virtualenv -p python3.10.6 .benchmarks
source .benchmarks/bin/activate

# Install the requirements in your local environment
pip install -r requirements.txt

ハードウェアの要件：CPUで迅速に実行できるほとんどのモデルは、このベンチマークではうまく機能しません。 GPUを使用したシステムを使用することをお勧めします。デバイスを設定するには、 --device_mapパラメーターを使用します。

設計上の決定

評価に使用するプロンプトを提供します。現在、すべてのモデルは、特定の質問タイプに同じプロンプトを使用しています。モデルが期待される形式で回答を生成するための複数の試行を許可します。この再試行ステップがなければ、一部のモデルは、回答の解析によって不当に傷つけられていることがわかります。それらは間違った形式で正解を生成します。したがって、予想される形式で回答を生成するための最大10回の試行モデルを許可します。このリポジトリのソースコードは、デフォルトでこれを行いますが-t, --answer_parsing_tries_allotedパラメーターによって制御できます。

使用法

config.pyのオープンソースモデルとプロポエタリモデルの両方に多くの構成を提供します。これらのモデルのいずれかを使用する場合は、 config.pyにリストされているコードを使用します。また、コマンドラインARGSによってハギングフェイスモデルを構成することもできます。

python main.py -m Mistral-7B-v0.1-cot
# or:
python main.py -n mistralai/Mistral-7B-v0.1 --prompt_style cot --max_new_tokens 12 --answer_parsing_tries_alloted 1

出力CSVには、ヘッダーなしの質問IDと回答の列が含まれています。出力の例についてはresults/Mistral-7B-v0.1-cot.csvを参照してください。

 # A snapshot from the example output.
35c06bfe-60a7-47b4-ab82-39e138abd629,13428.0
33c7bd71-e5a3-40dd-8eb0-5000c9353977,-4.5
7b60e737-4f0a-467b-9f73-fa5714d8cdbb,41846.0
0a3f6ada-b8d3-48cc-adb4-270af0e08289,2.0
03999e5f-05ee-4b71-95ad-c5a61aae4858,2.0

新しいモデルの構成

config.pyの_CONFIG変数に新しいモデルを追加する場合。たとえば、次のスニペットは、カスタムデフォルトのmax_new_tokensを使用してZephyrモデルを追加します。また、使用するプロンプト作成者を選択する必要があります。これは、各質問に対して作成されたプロンプトを制御します。 2つのcode_prompt_createrとcot_prompt_creatorを提供します。

 _CONFIG = {
    ...,
    "example-zepyhr-code" : lambda : (
        HFChatModel (
            "HuggingFaceH4/zephyr-7b-beta" ,
            device_map = "auto" ,
            generation_kwargs = { "max_new_tokens" : 2048 },
        ),
        code_prompt_creator ,
    ),
}

この特定のモデルでは、コマンドラインを直接使用できました。

python main.py -n HuggingFaceH4/zephyr-7b-beta --prompt_style code --max_new_tokens 2048 --device_map auto

アップロード

結果をS＆P AIベンチマークにアップロードしてください！ https://benchmarks.kensho.comのページをご覧ください。

接触

このレポは、さらなる実験のテンプレートとして機能することを目的としています！

質問がある場合は、 [email protected]にご連絡ください。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-02-22
サイズ 44.94KB
から Github

benchmarks pipeline

S＆P AIベンチマークデモパイプライン

設定

設計上の決定

使用法

新しいモデルの構成

アップロード

接触

ComfyUI_Pipeline_Tool

GitHub sgrebnov/cordova plugin background download

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

trigger circleci pipeline action

禹帝のパイプライン

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind