z bench ดาวน์โหลด - z bench ดาวน์โหลดซอร์สโค้ด

z bench

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

Z-Bench 1.0 โดย ZhenFund

ชุดทดสอบภาษาจีนจำลองภาษามักเกิ้ลขนาดใหญ่

ชุดข้อมูล

เวอร์ชันเอกสาร Tencent

https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX

เวอร์ชัน CSV

ความสามารถพื้นฐาน : common.samples.csv
ความสามารถขั้นสูง : ement.samples.csv
ความสามารถในแนวตั้ง : เฉพาะทาง.samples.csv

การแนะนำ

นับตั้งแต่เปิดตัว ChatGPT เรามักจะอุทานว่า "โอ้ มันตอบได้จริง ๆ นะ!" ขณะเดียวกัน เราก็รู้สึกยินดีที่ได้เห็นทีมโมเดลและผลิตภัณฑ์ขนาดใหญ่เพิ่มมากขึ้นเรื่อยๆ

ในฐานะนักลงทุนรายแรกๆ เรามักจะต้องทดลองใช้และประเมินผลิตภัณฑ์ AI การสนทนาที่เพิ่งเปิดตัว วิธีที่พบบ่อยที่สุดคือการเปรียบเทียบผลิตภัณฑ์เหล่านี้กับผลลัพธ์ของ ChatGPT อันเป็นเอกลักษณ์ผ่านข้อความแจ้งบางอย่าง ในกระบวนการนี้ เราได้ค่อยๆ บันทึกปัญหาบางอย่างที่โมเดลภาษาขนาดใหญ่ไม่สามารถจัดการได้ดีในปัจจุบัน รวมถึงคำแนะนำที่น่าสนใจมากมาย

แล้วเราใช้คำสั่งอะไรในการทดสอบ? OpenAI ได้สาธิตความสามารถพื้นฐาน 48 ประการของ ChatGPT บนเว็บไซต์อย่างเป็นทางการ ในด้าน NLP ยังมีชุดการทดสอบที่ใช้กันอย่างแพร่หลาย เช่น SuperGLUE, MMLU และ Google BIG-bench ในเวลาเดียวกัน เนื่องจากความสามารถใหม่จะปรากฏในโมเดลขนาดใหญ่ เมื่อพารามิเตอร์และขนาดข้อมูลเพิ่มขึ้น ชุดทดสอบที่เกี่ยวข้องกับความสามารถใหม่เหล่านี้ก็เพิ่มขึ้นเช่นกัน

อย่างไรก็ตาม จากการปฏิบัติจริง เราพบว่าชุดทดสอบงาน NLP ปัจจุบันมีปัญหาดังต่อไปนี้:

งานบางอย่างอาจไม่เหมาะกับระบบการสนทนา และงานบางอย่างอาจไม่จำเป็นต้องมีเวอร์ชันภาษาจีนที่ดี
เนื่องจากชุดทดสอบเหล่านี้กลายเป็นมาตรฐานอุตสาหกรรม การเพิ่มประสิทธิภาพโดยตรงและการติดตั้งมากเกินไปอาจเกิดขึ้นได้
ชุดการทดสอบเหล่านี้มักต้องมีการใช้งานการทดสอบอัตโนมัติ และไม่เหมาะสำหรับผู้ที่ไม่ใช่มืออาชีพเพื่อใช้สำหรับการถามตอบรายวัน

ดังนั้น พวกเรา VC Muggles หลายคนซึ่งเป็นผู้ใช้ AI การสนทนาจำนวนมากตามความต้องการของเรา ได้สรุปและเปิดตัว "Z-Bench" ซึ่งเป็นเครื่องมือสำหรับบุคลากรที่ไม่ใช่ด้านเทคนิคในการทดสอบผลิตภัณฑ์การสนทนารุ่นใหญ่ในเชิงคุณภาพ (ผลิตภัณฑ์ที่คล้ายกับ ChatGPT ) ชุดทดสอบ

"Z-Bench v1.0" มอบการแจ้งเตือนทั้งหมด 300 รายการจากสามมุมมอง: ความสามารถพื้นฐาน ความสามารถขั้นสูง และความสามารถในแนวดิ่ง จุดเริ่มต้นของเราคือการครอบคลุมงาน NLP หลายประเภทให้ได้มากที่สุด เป้าหมายของเราไม่ใช่การจัดหาชุดการทดสอบที่เข้มงวดทางวิชาการและครบถ้วน แต่เพื่อรวมชุดการทดสอบทางวิชาการที่มีอยู่ กรณีที่น่าสนใจบางกรณีที่รวบรวมไว้ทุกวัน และความสามารถในการเกิดขึ้นและศักดิ์สิทธิ์ที่ค้นพบโดยชุมชนวิชาการหลังจากการเกิดขึ้นของแบบจำลองขนาดใหญ่ ชุดทดสอบความเชี่ยวชาญแบบจำลองเหมาะสำหรับการใช้งานโดยผู้เชี่ยวชาญที่ไม่ใช่ด้านเทคนิค อย่างไรก็ตาม เราจะพลาดบางฉากอย่างหลีกเลี่ยงไม่ได้ หรือจะมีเนื้อหาที่ไม่ชำนาญจำนวนมากจากมุมมองของมืออาชีพ ในอนาคต เราจะเสริมและปรับปรุงเนื้อหาดังกล่าวต่อไปตามความคิดเห็นที่เรารวบรวม และเผยแพร่ในเวลาที่เหมาะสม