Repo ini menunjukkan cara menjalankan model melalui tolok ukur S&P AI. Semua model yang dikonfigurasi dapat dilihat di config.py
. Sangat mudah untuk menambahkan model Anda sendiri ke konfigurasi, atau menjalankan model HuggingFace menggunakan opsi CommandLine.
Silakan unduh pertanyaan dari halaman pengiriman situs web S&P AI Benchmarks kami dan simpan langsung di dalam folder ini, benchmarks-pipeline/benchmark_questions.json
.
# We recommend using python 3.10.6 with pyenv
pyenv install 3.10.6
pyenv local 3.10.6
virtualenv -p python3.10.6 .benchmarks
source .benchmarks/bin/activate
# Install the requirements in your local environment
pip install -r requirements.txt
Persyaratan Perangkat Keras: Sebagian besar model yang dapat berjalan dengan cepat di CPU tidak akan berkinerja baik di tolok ukur ini; Kami merekomendasikan menggunakan sistem dengan GPU. Untuk mengatur perangkat, gunakan parameter --device_map
.
Kami memberikan petunjuk yang kami gunakan untuk evaluasi; Saat ini semua model menggunakan petunjuk yang sama untuk jenis pertanyaan yang diberikan. Kami mengizinkan model beberapa upaya untuk menghasilkan jawaban dalam format yang diharapkan. Tanpa langkah coba lagi ini kami menemukan bahwa beberapa model terlalu dirugikan oleh jawaban yang kami parsing: mereka menghasilkan jawaban yang benar dalam format yang salah. Dengan demikian, kami mengizinkan model hingga 10 upaya untuk menghasilkan jawaban dalam format yang diharapkan. Kode sumber dalam repo ini melakukan ini secara default, tetapi dapat dikontrol oleh parameter -t, --answer_parsing_tries_alloted
.
Kami menyediakan sejumlah konfigurasi untuk model open source dan propetary di config.py
. Jika Anda ingin menggunakan salah satu model tersebut, maka gunakan kode yang tercantum dalam config.py
. Anda juga dapat mengonfigurasi model HuggingFace oleh CommandLine Args.
python main.py -m Mistral-7B-v0.1-cot
# or:
python main.py -n mistralai/Mistral-7B-v0.1 --prompt_style cot --max_new_tokens 12 --answer_parsing_tries_alloted 1
Output CSV mencakup kolom untuk ID pertanyaan dan jawaban tanpa header. Lihat results/Mistral-7B-v0.1-cot.csv
Untuk contoh output.
# A snapshot from the example output.
35c06bfe-60a7-47b4-ab82-39e138abd629,13428.0
33c7bd71-e5a3-40dd-8eb0-5000c9353977,-4.5
7b60e737-4f0a-467b-9f73-fa5714d8cdbb,41846.0
0a3f6ada-b8d3-48cc-adb4-270af0e08289,2.0
03999e5f-05ee-4b71-95ad-c5a61aae4858,2.0
Jika Anda ingin menambahkan model baru, tambahkan ke variabel _CONFIG
di config.py. Misalnya, cuplikan berikut menambahkan model Zephyr dengan max_new_tokens
default khusus. Anda juga harus memilih pembuat prompt yang ingin Anda gunakan. Ini mengontrol petunjuk yang dibuat untuk setiap pertanyaan. Kami menyediakan dua, code_prompt_creater
dan cot_prompt_creator
.
_CONFIG = {
...,
"example-zepyhr-code" : lambda : (
HFChatModel (
"HuggingFaceH4/zephyr-7b-beta" ,
device_map = "auto" ,
generation_kwargs = { "max_new_tokens" : 2048 },
),
code_prompt_creator ,
),
}
Untuk model spesifik ini Anda bisa menggunakan Commandline secara langsung:
python main.py -n HuggingFaceH4/zephyr-7b-beta --prompt_style code --max_new_tokens 2048 --device_map auto
Unggah hasil Anda ke tolok ukur S&P AI! Lihat halaman di sini di https://benchmarks.kensho.com.
Repo ini dimaksudkan untuk berfungsi sebagai templat untuk eksperimen lebih lanjut!
Silakan hubungi [email protected]
dengan pertanyaan apa pun.
Hak Cipta 2024-sekarang Kensho Technologies, LLC.