เว็บไซต์ | CompassHub | เข็มทิศอันดับ | เอกสารประกอบ | การติดตั้ง | การรายงานปัญหา
อังกฤษ | 简体中文
เข้าร่วมกับเราบน Discord และ WeChat
สำคัญ
ติดดาวเรา คุณจะได้รับการแจ้งเตือนการเปิดตัวทั้งหมดจาก GitHub โดยไม่ชักช้า ~ ️
ถึง OpenCompass !
เช่นเดียวกับเข็มทิศที่นำทางเราในการเดินทางของเรา OpenCompass จะนำทางคุณผ่านภูมิทัศน์ที่ซับซ้อนของการประเมินโมเดลภาษาขนาดใหญ่ ด้วยอัลกอริธึมอันทรงพลังและอินเทอร์เฟซที่ใช้งานง่าย OpenCompass ทำให้การประเมินคุณภาพและประสิทธิภาพของโมเดล NLP ของคุณเป็นเรื่องง่าย
สำรวจโอกาสที่ OpenCompass! ขณะนี้เรา กำลังรับสมัครนักวิจัย/วิศวกร และนักศึกษาฝึกงานเต็มเวลา หากคุณหลงใหลใน LLM และ OpenCompass อย่าลังเลที่จะติดต่อเราทางอีเมล เราชอบที่จะได้ยินจากคุณ!
เรามีความยินดีที่จะแจ้งให้ทราบว่า Meta AI ได้รับการแนะนำ OpenCompass คลิกเริ่มต้นใช้งาน Llama เพื่อดูข้อมูลเพิ่มเติม
ความสนใจ
ประกาศแจ้งการเปลี่ยนแปลงด่วน: ในเวอร์ชัน 0.4.0 เรากำลังรวมไฟล์การกำหนดค่า AMOTIC ทั้งหมด (ก่อนหน้านี้อยู่ใน ./configs/datasets, ./configs/models และ ./configs/summarizers) ลงในแพ็คเกจ opencompass ผู้ใช้ควรอัปเดตการอ้างอิงการกำหนดค่าเพื่อให้สอดคล้องกับการเปลี่ยนแปลงโครงสร้างนี้
[2024.10.14] ขณะนี้เรารองรับชุดข้อมูล QA หลายภาษาของ OpenAI MMMLU รู้สึกอิสระที่จะลองดู!
[2024.09.19] ขณะนี้เรารองรับ Qwen2.5(0.5B ถึง 72B) ด้วยแบ็กเอนด์หลายตัว (huggingface/vllm/lmdeploy) อย่าลังเลที่จะทดลองใช้!
[2024.09.17] ขณะนี้เรารองรับ OpenAI o1( o1-mini-2024-09-12
และ o1-preview-2024-09-12
) อย่าลังเลที่จะทดลองใช้!
[2024.09.05] ขณะนี้เราสนับสนุนการแยกคำตอบผ่านการประมวลผลภายหลังโมเดล เพื่อให้การแสดงความสามารถของโมเดลได้แม่นยำยิ่งขึ้น ในส่วนหนึ่งของการอัปเดตนี้ เราได้รวม XFinder ไว้เป็นโมเดลหลังการประมวลผลตัวแรกของเรา สำหรับข้อมูลโดยละเอียดเพิ่มเติม โปรดดูเอกสารประกอบและทดลองใช้งาน!
[2024.08.20] ขณะนี้ OpenCompass รองรับ SciCode: เกณฑ์มาตรฐานการเข้ารหัสการวิจัยที่คัดสรรโดยนักวิทยาศาสตร์
[2024.08.16] ขณะนี้ OpenCompass รองรับเกณฑ์มาตรฐานการประเมินโมเดลภาษาบริบทยาวใหม่ล่าสุด — RULER RULER ให้การประเมินบริบทแบบยาวรวมถึงการเรียกค้น การติดตามแบบหลายฮอป การรวมกลุ่ม และการตอบคำถามผ่านการกำหนดค่าที่ยืดหยุ่น ตรวจสอบการกำหนดค่าการประเมิน RULER ทันที!
[2024.08.09] เราได้เผยแพร่ข้อมูลตัวอย่างและการกำหนดค่าสำหรับ CompassBench-202408 ยินดีต้อนรับสู่ CompassBench สำหรับรายละเอียดเพิ่มเติม
[2024.08.01] เรารองรับรุ่น Gemma2 ยินดีต้อนรับสู่ลอง!
[2024.07.23] เรารองรับชุดข้อมูล ModelScope คุณสามารถโหลดได้ตามความต้องการโดยไม่ต้องดาวน์โหลดข้อมูลทั้งหมดลงในดิสก์ในเครื่องของคุณ ยินดีต้อนรับสู่ลอง!
[2024.07.17] เรารู้สึกตื่นเต้นที่จะประกาศการเปิดตัวรายงานทางเทคนิคของ NeedleBench เราขอเชิญคุณเยี่ยมชมเอกสารสนับสนุนของเราเพื่อดูแนวทางการประเมินโดยละเอียด
[2024.07.04] ขณะนี้ OpenCompass รองรับ InternLM2.5 ซึ่งมี ความสามารถในการให้เหตุผลที่โดดเด่น หน้าต่างบริบท 1M และ การใช้เครื่องมือที่แข็งแกร่งกว่า คุณสามารถลองใช้โมเดลใน OpenCompass Config และ InternLM ..
[2024.06.20] ขณะนี้ OpenCompass รองรับการสลับระหว่างแบ็กเอนด์การเร่งการอนุมานในคลิกเดียว ซึ่งช่วยเพิ่มประสิทธิภาพกระบวนการประเมิน นอกเหนือจากแบ็กเอนด์การอนุมาน HuggingFace เริ่มต้นแล้ว ตอนนี้ยังรองรับแบ็กเอนด์ยอดนิยม LMDeploy และ vLLM อีกด้วย คุณลักษณะนี้พร้อมใช้งานผ่านสวิตช์บรรทัดคำสั่งแบบธรรมดาและผ่าน API การปรับใช้ สำหรับการใช้งานโดยละเอียด โปรดดูเอกสารประกอบ..
มากกว่า
เราจัดทำ OpenCompass Leaderboard ให้กับชุมชนเพื่อจัดอันดับโมเดลสาธารณะและโมเดล API ทั้งหมด หากคุณต้องการเข้าร่วมการประเมิน โปรดระบุ URL ที่เก็บโมเดลหรืออินเทอร์เฟซ API มาตรฐานไปยังที่อยู่อีเมล [email protected]
กลับไปด้านบน
ด้านล่างนี้เป็นขั้นตอนสำหรับการติดตั้งอย่างรวดเร็วและการเตรียมชุดข้อมูล
เราขอแนะนำอย่างยิ่งให้ใช้ conda เพื่อจัดการสภาพแวดล้อมหลามของคุณ
conda create --name opencompass python=3.10 -y conda เปิดใช้งาน opencompass
pip install -U opencompass ## การติดตั้งแบบเต็ม (พร้อมรองรับชุดข้อมูลเพิ่มเติม) # pip ติดตั้ง "opencompass [เต็ม]" ## สภาพแวดล้อมที่มีเฟรมเวิร์กการเร่งความเร็วโมเดล ## จัดการเฟรมเวิร์กการเร่งความเร็วที่แตกต่างกันโดยใช้สภาพแวดล้อมเสมือน ## เนื่องจากมักจะมีข้อขัดแย้งในการพึ่งพาด้วย กันและกัน. # pip ติดตั้ง "opencompass [lmdeploy]" # pip ติดตั้ง "opencompass [vllm]" ## การประเมิน API (เช่น Openai, Qwen) # pip ติดตั้ง "opencompass [api]"
หากคุณต้องการใช้คุณสมบัติล่าสุดของ opencompass หรือพัฒนาคุณสมบัติใหม่ คุณสามารถสร้างจากแหล่งที่มาได้เช่นกัน
git clone https://github.com/open-compass/opencompass opencompass cd opencompass pip ติดตั้ง -e # pip ติดตั้ง -e "[เต็ม]" # pip ติดตั้ง -e "[vllm]"
คุณสามารถเลือกวิธีใดวิธีหนึ่งต่อไปนี้เพื่อเตรียมชุดข้อมูล
คุณสามารถดาวน์โหลดและแยกชุดข้อมูลได้ด้วยคำสั่งต่อไปนี้:
# ดาวน์โหลดชุดข้อมูลไปที่ data/ folderwget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip เปิดเครื่องรูด OpenCompassData-core-20240207.zip
เรารองรับชุดข้อมูลการดาวน์โหลดอัตโนมัติจากเซิร์ฟเวอร์จัดเก็บข้อมูล OpenCompass คุณสามารถรันการประเมินโดยใช้ --dry-run
พิเศษเพื่อดาวน์โหลดชุดข้อมูลเหล่านี้ ปัจจุบันชุดข้อมูลที่รองรับแสดงอยู่ที่นี่ ชุดข้อมูลเพิ่มเติมจะถูกอัปโหลดเร็วๆ นี้
นอกจากนี้ คุณยังสามารถใช้ ModelScope เพื่อโหลดชุดข้อมูลได้ตามต้องการ
การติดตั้ง:
pip ติดตั้ง modelscope[framework]export DATASET_SOURCE=ModelScope
จากนั้นส่งงานการประเมินโดยไม่ต้องดาวน์โหลดข้อมูลทั้งหมดลงในดิสก์ภายในเครื่องของคุณ ชุดข้อมูลที่มีอยู่ได้แก่:
humaneval, triviaqa, commonsenseqa, tydiqa, Strategyqa, cmmlu, lambada, piqa, ceval, คณิตศาสตร์, LCSTS, Xsum, winogrande, openbookqa, AGIEval, gsm8k, nq, การแข่งขัน, siqa, mbpp, mmlu, hellaswag, ARC, BBH, xstory_cloze, การประชุมสุดยอด, GAOKAO-BENCH, OCNLI, cmnli
คุณลักษณะของบุคคลที่สามบางอย่าง เช่น Humaneval และ Llama อาจต้องมีขั้นตอนเพิ่มเติมเพื่อให้ทำงานได้อย่างถูกต้อง สำหรับขั้นตอนโดยละเอียด โปรดดูที่คู่มือการติดตั้ง
กลับไปด้านบน
หลังจากแน่ใจว่าติดตั้ง OpenCompass อย่างถูกต้องตามขั้นตอนข้างต้นและเตรียมชุดข้อมูลแล้ว ตอนนี้คุณสามารถเริ่มการประเมินครั้งแรกโดยใช้ OpenCompass ได้แล้ว!
การประเมินครั้งแรกของคุณด้วย OpenCompass!
รองรับ OpenCompass ตั้งค่าการกำหนดค่าของคุณผ่าน CLI หรือสคริปต์หลาม สำหรับการตั้งค่าการประเมินอย่างง่าย เราแนะนำให้ใช้ CLI สำหรับการประเมินที่ซับซ้อนมากขึ้น แนะนำให้ใช้วิธีแบบสคริปต์ คุณสามารถค้นหาสคริปต์ตัวอย่างเพิ่มเติมได้ในโฟลเดอร์ configs
# CLIopencompass --models hf_internlm2_5_1_8b_chat --datasets demo_gsm8k_chat_gen# Python scriptsopencompass ./configs/eval_chat_demo.py
คุณสามารถค้นหาตัวอย่างสคริปต์เพิ่มเติมได้ในโฟลเดอร์ configs
การประเมิน API
ด้วยการออกแบบของ OpenCompass จึงไม่เลือกปฏิบัติระหว่างโมเดลโอเพ่นซอร์สและโมเดล API คุณสามารถประเมินโมเดลทั้งสองประเภทได้ในลักษณะเดียวกันหรือในการตั้งค่าเดียว
ส่งออก OPENAI_API_KEY="YOUR_OPEN_API_KEY"# CLIopencompass --models gpt_4o_2024_05_13 --datasets demo_gsm8k_chat_gen# Python scriptsopencompass ./configs/eval_api_demo.py# คุณสามารถใช้ o1_mini_2024_09_12/o1_preview_2024_09_12 สำหรับรุ่น o1 เราตั้งค่า max_completion_tokens=8192 เป็นค่าเริ่มต้น
การประเมินแบบเร่งรัด
นอกจากนี้ หากคุณต้องการใช้แบ็กเอนด์การอนุมานอื่นที่ไม่ใช่ HuggingFace เพื่อการประเมินแบบเร่ง เช่น LMDeploy หรือ vLLM คุณสามารถทำได้โดยใช้คำสั่งด้านล่าง โปรดตรวจสอบให้แน่ใจว่าคุณได้ติดตั้งแพ็คเกจที่จำเป็นสำหรับแบ็กเอนด์ที่เลือก และโมเดลของคุณรองรับการอนุมานแบบเร่งด้วย สำหรับข้อมูลเพิ่มเติม โปรดดูเอกสารประกอบเกี่ยวกับแบ็กเอนด์การเร่งการอนุมานที่นี่ ด้านล่างนี้เป็นตัวอย่างการใช้ LMDeploy:
# CLIopencompass --models hf_internlm2_5_1_8b_chat --datasets demo_gsm8k_chat_gen -a lmdeploy# Python scriptsopencompass ./configs/eval_lmdeploy_demo.py
รุ่นที่รองรับ
OpenCompass มีการกำหนดค่าที่กำหนดไว้ล่วงหน้าสำหรับรุ่นและชุดข้อมูลจำนวนมาก คุณสามารถแสดงรายการการกำหนดค่าโมเดลและชุดข้อมูลที่มีอยู่ทั้งหมดโดยใช้เครื่องมือ
# แสดงรายการการกำหนดค่าทั้งหมดเครื่องมือ spython/list_configs.py# แสดงรายการการกำหนดค่าทั้งหมดที่เกี่ยวข้องกับเครื่องมือ llama และ mmlupython/list_configs.py llama mmlu
หากโมเดลไม่อยู่ในรายการ แต่รองรับโดยคลาส Huggingface AutoModel คุณสามารถประเมินด้วย OpenCompass ได้เช่นกัน คุณสามารถมีส่วนร่วมในการดูแลรักษาโมเดลและรายการชุดข้อมูลที่รองรับ OpenCompass
opencompass -- ชุดข้อมูล demo_gsm8k_chat_gen -- แชทประเภท hf --hf-path internlm / internlm2_5-1_8b-chat
หากคุณต้องการใช้ GPU หลายตัวเพื่อประเมินโมเดลในข้อมูลแบบขนาน คุณสามารถใช้ --max-num-worker
CUDA_VISIBLE_DEVICES=0,1 opencompass --ชุดข้อมูล demo_gsm8k_chat_gen --แชทประเภท hf --hf-path internlm/internlm2_5-1_8b-chat --max-num-worker 2
เคล็ดลับ
--hf-num-gpus
ใช้สำหรับโมเดลขนาน (รูปแบบกอดหน้า) --max-num-worker
ใช้สำหรับข้อมูลแบบขนาน
เคล็ดลับ
การกำหนดค่าด้วย _ppl
ได้รับการออกแบบมาสำหรับรุ่นพื้นฐานโดยทั่วไป การกำหนดค่าด้วย _gen
สามารถใช้ได้ทั้งกับโมเดลพื้นฐานและโมเดลแชท
OpenCompass ยังรองรับการประเมิน API หรือโมเดลที่กำหนดเองผ่านบรรทัดคำสั่งหรือไฟล์การกำหนดค่า รวมถึงกลยุทธ์การประเมินที่หลากหลายมากขึ้น โปรดอ่าน Quick Start เพื่อเรียนรู้วิธีรันงานการประเมิน
กลับไปด้านบน
เรารู้สึกตื่นเต้นที่จะเปิดตัว OpenCompass 2.0 ซึ่งเป็นชุดขั้นสูงที่มีองค์ประกอบหลักสามประการ: CompassKit, CompassHub และ CompassRank
CompassRank ได้รับการปรับปรุงอย่างมีนัยสำคัญในกระดานผู้นำซึ่งขณะนี้มีทั้งการวัดประสิทธิภาพแบบโอเพ่นซอร์สและการวัดประสิทธิภาพที่เป็นกรรมสิทธิ์ การอัปเกรดนี้ช่วยให้ประเมินโมเดลต่างๆ ในอุตสาหกรรมได้ครอบคลุมมากขึ้น
CompassHub นำเสนออินเทอร์เฟซเบราว์เซอร์มาตรฐานรุ่นบุกเบิก ออกแบบมาเพื่อลดความซับซ้อนและเร่งการสำรวจและการใช้เกณฑ์มาตรฐานที่หลากหลายสำหรับนักวิจัยและผู้ปฏิบัติงาน เพื่อเพิ่มการมองเห็นมาตรฐานของคุณภายในชุมชน เราขอเชิญคุณอย่างอบอุ่นให้มีส่วนร่วมกับ CompassHub คุณสามารถเริ่มขั้นตอนการยื่นคำร้องได้โดยคลิกที่นี่
CompassKit คือชุดเครื่องมือประเมินผลอันทรงพลังที่ปรับแต่งมาโดยเฉพาะสำหรับโมเดลภาษาขนาดใหญ่และโมเดลภาษาวิสัยทัศน์ขนาดใหญ่ มีชุดเครื่องมือมากมายเพื่อประเมินและวัดประสิทธิภาพของแบบจำลองที่ซับซ้อนเหล่านี้อย่างมีประสิทธิภาพ ยินดีต้อนรับสู่ลองใช้ชุดเครื่องมือของเราสำหรับการวิจัยและผลิตภัณฑ์ของคุณ
OpenCompass เป็นแพลตฟอร์มแบบครบวงจรสำหรับการประเมินแบบจำลองขนาดใหญ่ โดยมีเป้าหมายเพื่อสร้างเกณฑ์มาตรฐานที่ยุติธรรม เปิดกว้าง และทำซ้ำได้สำหรับการประเมินแบบจำลองขนาดใหญ่ คุณสมบัติหลักประกอบด้วย:
การสนับสนุนที่ครอบคลุมสำหรับโมเดลและชุดข้อมูล : รองรับล่วงหน้าสำหรับโมเดล HuggingFace และ API มากกว่า 20 แบบ ซึ่งเป็นแผนการประเมินโมเดลที่มีชุดข้อมูลมากกว่า 70 ชุดพร้อมคำถามประมาณ 400,000 ข้อ ประเมินความสามารถของโมเดลอย่างครอบคลุมในห้ามิติ
การประเมินแบบกระจายที่มีประสิทธิภาพ : คำสั่งบรรทัดเดียวเพื่อใช้การแบ่งงานและการประเมินแบบกระจาย ทำให้การประเมินแบบจำลองขนาดพันล้านเสร็จสมบูรณ์ภายในเวลาเพียงไม่กี่ชั่วโมง
กระบวนทัศน์การประเมินที่หลากหลาย : รองรับการประเมินแบบ Zero-shot, ไม่กี่ครั้ง และแบบต่อเนื่องทางความคิด รวมกับเทมเพลตพรอมต์มาตรฐานหรือแบบบทสนทนา เพื่อกระตุ้นประสิทธิภาพสูงสุดของโมเดลต่างๆ ได้อย่างง่ายดาย
การออกแบบแบบโมดูลาร์พร้อมความสามารถในการขยายสูง : ต้องการเพิ่มโมเดลหรือชุดข้อมูลใหม่ ปรับแต่งกลยุทธ์การแบ่งงานขั้นสูง หรือแม้แต่สนับสนุนระบบการจัดการคลัสเตอร์ใหม่หรือไม่ ทุกอย่างเกี่ยวกับ OpenCompass สามารถขยายได้อย่างง่ายดาย!
กลไกการจัดการและการรายงานการทดลอง : ใช้ไฟล์กำหนดค่าเพื่อบันทึกการทดลองแต่ละรายการอย่างครบถ้วน และสนับสนุนการรายงานผลลัพธ์แบบเรียลไทม์
ภาษา | ความรู้ | การใช้เหตุผล | การตรวจสอบ |
คำจำกัดความของคำ
การเรียนรู้สำนวน
ความคล้ายคลึงกันทางความหมาย
ความละเอียดหลัก
การแปล
การตอบคำถามหลายภาษา
สรุปหลายภาษา
| ตอบคำถามความรู้
| ข้อความที่เกี่ยวข้อง
การใช้เหตุผลร่วมกัน
การใช้เหตุผลทางคณิตศาสตร์
การประยุกต์ทฤษฎีบท
การใช้เหตุผลอย่างครอบคลุม
| มัธยมต้น, มัธยมปลาย, มหาวิทยาลัย, การสอบวิชาชีพ
การตรวจสุขภาพ
|
ความเข้าใจ | บริบทยาว | ความปลอดภัย | รหัส |
การอ่านเพื่อความเข้าใจ
สรุปเนื้อหา
การวิเคราะห์เนื้อหา
| ความเข้าใจในบริบทที่ยาวนาน
| ความปลอดภัย
ความทนทาน
| รหัส
|
โมเดลโอเพ่นซอร์ส | โมเดล API |
|
|
กลับไปด้านบน
การประเมินอัตนัย
ปล่อย CompassAreana
การประเมินอัตนัย
บริบทแบบยาว
การประเมินบริบทแบบยาวพร้อมชุดข้อมูลที่ครอบคลุม
ลีดเดอร์บอร์ดบริบทแบบยาว
การเข้ารหัส
กระดานผู้นำการประเมินผลการเข้ารหัส
บริการประเมินภาษาที่ไม่ใช่หลาม
ตัวแทน
รองรับกรอบตัวแทนต่างๆ
การประเมินการใช้เครื่องมือของ LLM
ความทนทาน
รองรับวิธีการโจมตีที่หลากหลาย
เราขอขอบคุณทุกการมีส่วนร่วมในการปรับปรุง OpenCompass โปรดดูแนวทางปฏิบัติที่ดีที่สุด
โค้ดบางส่วนในโครงการนี้อ้างอิงและแก้ไขจาก OpenICL
ชุดข้อมูลและการใช้งานทันทีบางส่วนได้รับการแก้ไขจาก chain-of-thind-hub และ instruct-eval
@misc{2023opencompass, title={OpenCompass: แพลตฟอร์มการประเมินผลสากลสำหรับโมเดลพื้นฐาน}, author={OpenCompass Contributors}, Howpublished = {url{https://github.com/open-compass/opencompass}}, year={ 2023}}
กลับไปด้านบน