ดาวน์โหลด mlmm evaluation - mlmm evaluation ดาวน์โหลดซอร์สโค้ด

mlmm evaluation

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

กรอบการประเมินสำหรับแบบจำลองภาษาขนาดใหญ่หลายภาษา

ภาพรวม

Repo นี้ประกอบด้วยชุดข้อมูลเบนช์มาร์กและสคริปต์การประเมินผลสำหรับ Multilingual Large Language Models (LLM) ชุดข้อมูลเหล่านี้สามารถใช้เพื่อประเมินโมเดลใน 26 ภาษาที่แตกต่างกัน และครอบคลุมงานที่แตกต่างกันสามงาน: ARC, HellaSwag และ MMLU สิ่งนี้เปิดตัวโดยเป็นส่วนหนึ่งของกรอบงาน Okapi ของเราสำหรับ LLM ที่ปรับแต่งตามคำสั่งหลายภาษา พร้อมด้วยการเรียนรู้เสริมจากความคิดเห็นของมนุษย์

ARC : ชุดข้อมูลที่มีระดับชั้นประถมศึกษาของแท้ 7,787 คำถามวิทยาศาสตร์แบบปรนัย รวบรวมเพื่อส่งเสริมการวิจัยในการตอบคำถามขั้นสูง
HellaSwag : HellaSWAG เป็นชุดข้อมูลสำหรับศึกษาการอนุมานสามัญสำนึกที่มีพื้นฐาน ประกอบด้วยคำถามแบบเลือกตอบ 70,000 ข้อเกี่ยวกับสถานการณ์ที่มีเหตุผล: แต่ละคำถามมาจากหนึ่งในสองโดเมน เครือ ข่ายกิจกรรม หรือ วิกิฮาว พร้อมตัวเลือกคำตอบ 4 ข้อเกี่ยวกับสิ่งที่อาจเกิดขึ้นต่อไปในฉาก คำตอบที่ถูกต้องคือประโยค (จริง) ของเหตุการณ์ถัดไป คำตอบที่ไม่ถูกต้องทั้งสามนั้นถูกสร้างขึ้นโดยฝ่ายตรงข้ามและตรวจสอบโดยมนุษย์ เพื่อที่จะหลอกเครื่องจักร แต่ไม่ใช่มนุษย์
MMLU : ชุดข้อมูลนี้ประกอบด้วยคำถามปรนัยที่ได้มาจากความรู้ที่หลากหลาย การทดสอบครอบคลุมวิชามนุษยศาสตร์ สังคมศาสตร์ วิทยาศาสตร์หนัก และการเรียนรู้ด้านอื่นๆ ที่สำคัญสำหรับบุคคลบางคน

ปัจจุบันชุดข้อมูลของเรารองรับ 26 ภาษา: รัสเซีย เยอรมัน จีน ฝรั่งเศส สเปน อิตาลี ดัตช์ เวียดนาม อินโดนีเซีย อาหรับ ฮังการี โรมาเนีย เดนมาร์ก สโลวัก ยูเครน คาตาลัน เซอร์เบีย โครเอเชีย ฮินดี เบงกาลี ทมิฬ เนปาล มาลายาลัม มราฐี เตลูกู และกันนาดา

ชุดข้อมูลเหล่านี้แปลจากชุดข้อมูล ARC, HellaSwag และ MMLU ดั้งเดิมเป็นภาษาอังกฤษโดยใช้ ChatGPT เอกสารทางเทคนิคของเราสำหรับ Okapi เพื่ออธิบายชุดข้อมูลพร้อมกับผลการประเมินสำหรับ LLM หลายภาษา (เช่น BLOOM, LLaMa และโมเดล Okapi ของเรา) สามารถพบได้ที่นี่

ประกาศการใช้งานและใบอนุญาต : กรอบการประเมินของเรามีจุดมุ่งหมายและได้รับอนุญาตสำหรับใช้ในการวิจัยเท่านั้น ชุดข้อมูลเป็น CC BY NC 4.0 (อนุญาตเฉพาะการใช้งานที่ไม่ใช่เชิงพาณิชย์) ซึ่งไม่ควรนำไปใช้นอกวัตถุประสงค์การวิจัย

ติดตั้ง

หากต้องการติดตั้ง lm-eval จากสาขาหลักของพื้นที่เก็บข้อมูลของเรา ให้รัน:

git clone https://github.com/nlp-uoregon/mlmm-evaluation.git
cd mlmm-evaluation
pip install -e " .[multilingual] "

การใช้งานขั้นพื้นฐาน

ประการแรก คุณต้องดาวน์โหลดชุดข้อมูลการประเมินหลายภาษาโดยใช้สคริปต์ต่อไปนี้:

bash scripts/download.sh

หากต้องการประเมินโมเดลของคุณในสามงาน คุณสามารถใช้สคริปต์ต่อไปนี้:

bash scripts/run.sh [LANG] [YOUR-MODEL-PATH]

ตัวอย่างเช่น หากคุณต้องการประเมินโมเดล Okapi ของเวียดนาม คุณสามารถเรียกใช้:

bash scripts/run.sh vi uonlp/okapi-vi-bloom

ลีดเดอร์บอร์ด

เรารักษากระดานผู้นำเพื่อติดตามความคืบหน้าของ LLM หลายภาษา

รับทราบ

กรอบงานของเราสืบทอดส่วนใหญ่มาจาก repo การประเมิน lm จาก EleutherAI โปรดอ้างอิง repo ของพวกเขาด้วยหากคุณใช้รหัส

การอ้างอิง

หากคุณใช้ข้อมูล โมเดล หรือโค้ดในพื้นที่เก็บข้อมูลนี้ โปรดอ้างอิง:

 @article { dac2023okapi ,
  title = { Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback } ,
  author = { Dac Lai, Viet and Van Nguyen, Chien and Ngo, Nghia Trung and Nguyen, Thuat and Dernoncourt, Franck and Rossi, Ryan A and Nguyen, Thien Huu } ,
  journal = { arXiv e-prints } ,
  pages = { arXiv--2307 } ,
  year = { 2023 }
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2024-12-30
ขนาด 50MB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
node telegram bot api

โค้ดแหล่งที่มา AI

v0.50.0
typebot.io

โค้ดแหล่งที่มา AI

v3.1.2
python wechaty getting started

โค้ดแหล่งที่มา AI

1.0.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด