การดาวน์โหลด benchmarks pipeline benchmarks pipeline

benchmarks pipeline

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

S&P AI Benchmarks Demo Pipeline

repo นี้แสดงวิธีเรียกใช้โมเดลผ่านมาตรฐาน S&P AI รุ่นที่กำหนดค่าทั้งหมดสามารถเห็นได้ใน config.py มันง่ายที่จะเพิ่มโมเดลของคุณเองลงในการกำหนดค่าหรือเรียกใช้โมเดล HuggingFace โดยใช้ตัวเลือก Commandline

การตั้งค่า

โปรดดาวน์โหลดคำถามจากหน้าส่งของเว็บไซต์ Benchmarks S&P ของเราและบันทึกไว้โดยตรงภายในโฟลเดอร์นี้ benchmarks-pipeline/benchmark_questions.json

 # We recommend using python 3.10.6 with pyenv
pyenv install 3.10.6
pyenv local 3.10.6
virtualenv -p python3.10.6 .benchmarks
source .benchmarks/bin/activate

# Install the requirements in your local environment
pip install -r requirements.txt

ข้อกำหนดของฮาร์ดแวร์: รุ่นส่วนใหญ่ที่สามารถทำงานได้อย่างรวดเร็วใน CPU จะทำงานได้ไม่ดีในเกณฑ์มาตรฐานนี้ เราขอแนะนำให้ใช้ระบบที่มี GPU ในการตั้งค่าอุปกรณ์ให้ใช้พารามิเตอร์ --device_map

การตัดสินใจออกแบบ

เราให้คำแนะนำที่เราใช้สำหรับการประเมินผล ปัจจุบันทุกรุ่นใช้พรอมต์เดียวกันสำหรับประเภทคำถามที่กำหนด เราอนุญาตให้โมเดลหลายพยายามสร้างคำตอบในรูปแบบที่คาดหวัง หากไม่มีขั้นตอนการลองใหม่นี้เราพบว่าบางรุ่นได้รับอันตรายอย่างไม่เหมาะสมจากการแยกวิเคราะห์คำตอบของเรา: พวกเขาสร้างคำตอบที่ถูกต้องในรูปแบบที่ไม่ถูกต้อง ดังนั้นเราจึงอนุญาตให้โมเดลสูงถึง 10 ครั้งในการสร้างคำตอบในรูปแบบที่คาดหวัง ซอร์สโค้ดใน repo นี้ทำสิ่งนี้โดยค่าเริ่มต้น แต่สามารถควบคุมได้โดยพารามิเตอร์ -t, --answer_parsing_tries_alloted พารามิเตอร์

การใช้งาน

เรามีการกำหนดค่าจำนวนมากสำหรับทั้งแบบโอเพ่นซอร์สและโมเดลที่มีความโดดเด่นใน config.py หากคุณต้องการใช้หนึ่งในรุ่นเหล่านั้นให้ใช้รหัสที่แสดงใน config.py นอกจากนี้คุณยังสามารถกำหนดค่าโมเดล HuggingFace โดย Commandline Args

python main.py -m Mistral-7B-v0.1-cot
# or:
python main.py -n mistralai/Mistral-7B-v0.1 --prompt_style cot --max_new_tokens 12 --answer_parsing_tries_alloted 1

CSV เอาท์พุทรวมคอลัมน์สำหรับรหัสคำถามและคำตอบโดยไม่มีส่วนหัว ดู results/Mistral-7B-v0.1-cot.csv สำหรับเอาต์พุตตัวอย่าง

 # A snapshot from the example output.
35c06bfe-60a7-47b4-ab82-39e138abd629,13428.0
33c7bd71-e5a3-40dd-8eb0-5000c9353977,-4.5
7b60e737-4f0a-467b-9f73-fa5714d8cdbb,41846.0
0a3f6ada-b8d3-48cc-adb4-270af0e08289,2.0
03999e5f-05ee-4b71-95ad-c5a61aae4858,2.0

การกำหนดค่ารุ่นใหม่

หากคุณต้องการเพิ่มโมเดลใหม่เพิ่มลงในตัวแปร _CONFIG ใน config.py ตัวอย่างเช่นตัวอย่างต่อไปนี้จะเพิ่มโมเดล Zephyr ด้วย max_new_tokens ที่เป็นค่าเริ่มต้นที่กำหนดเอง คุณต้องเลือกผู้สร้างพรอมต์ที่คุณต้องการใช้ สิ่งนี้ควบคุมพรอมต์ที่สร้างขึ้นสำหรับแต่ละคำถาม เราให้บริการสอง code_prompt_creater และ cot_prompt_creator

 _CONFIG = {
    ...,
    "example-zepyhr-code" : lambda : (
        HFChatModel (
            "HuggingFaceH4/zephyr-7b-beta" ,
            device_map = "auto" ,
            generation_kwargs = { "max_new_tokens" : 2048 },
        ),
        code_prompt_creator ,
    ),
}

สำหรับโมเดลเฉพาะนี้คุณสามารถใช้คำสั่งโดยตรง:

python main.py -n HuggingFaceH4/zephyr-7b-beta --prompt_style code --max_new_tokens 2048 --device_map auto

อัพโหลด

อัปโหลดผลลัพธ์ของคุณไปยังเกณฑ์มาตรฐาน S&P AI! ดูหน้านี้ได้ที่ https://benchmarks.kensho.com

ติดต่อ

repo นี้มีไว้เพื่อทำหน้าที่เป็นเทมเพลตสำหรับการทดลองเพิ่มเติม!

โปรดติดต่อ [email protected] พร้อมคำถามใด ๆ

ลิขสิทธิ์ 2024- ปัจจุบัน Kensho Technologies, LLC

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-02-22
ขนาด 44.94KB
มาจาก Github

แอปที่เกี่ยวข้อง

ComfyUI_Pipeline_Tool

2024-11-09
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
trigger circleci pipeline action

2024-11-01
ไปป์ไลน์ของจักรพรรดิหยู

2022-08-18

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด