ชุดทดสอบภาษาจีนจำลองภาษามักเกิ้ลขนาดใหญ่
https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX
นับตั้งแต่เปิดตัว ChatGPT เรามักจะอุทานว่า "โอ้ มันตอบได้จริง ๆ นะ!" ขณะเดียวกัน เราก็รู้สึกยินดีที่ได้เห็นทีมโมเดลและผลิตภัณฑ์ขนาดใหญ่เพิ่มมากขึ้นเรื่อยๆ
ในฐานะนักลงทุนรายแรกๆ เรามักจะต้องทดลองใช้และประเมินผลิตภัณฑ์ AI การสนทนาที่เพิ่งเปิดตัว วิธีที่พบบ่อยที่สุดคือการเปรียบเทียบผลิตภัณฑ์เหล่านี้กับผลลัพธ์ของ ChatGPT อันเป็นเอกลักษณ์ผ่านข้อความแจ้งบางอย่าง ในกระบวนการนี้ เราได้ค่อยๆ บันทึกปัญหาบางอย่างที่โมเดลภาษาขนาดใหญ่ไม่สามารถจัดการได้ดีในปัจจุบัน รวมถึงคำแนะนำที่น่าสนใจมากมาย
แล้วเราใช้คำสั่งอะไรในการทดสอบ? OpenAI ได้สาธิตความสามารถพื้นฐาน 48 ประการของ ChatGPT บนเว็บไซต์อย่างเป็นทางการ ในด้าน NLP ยังมีชุดการทดสอบที่ใช้กันอย่างแพร่หลาย เช่น SuperGLUE, MMLU และ Google BIG-bench ในเวลาเดียวกัน เนื่องจากความสามารถใหม่จะปรากฏในโมเดลขนาดใหญ่ เมื่อพารามิเตอร์และขนาดข้อมูลเพิ่มขึ้น ชุดทดสอบที่เกี่ยวข้องกับความสามารถใหม่เหล่านี้ก็เพิ่มขึ้นเช่นกัน
อย่างไรก็ตาม จากการปฏิบัติจริง เราพบว่าชุดทดสอบงาน NLP ปัจจุบันมีปัญหาดังต่อไปนี้:
ดังนั้น พวกเรา VC Muggles หลายคนซึ่งเป็นผู้ใช้ AI การสนทนาจำนวนมากตามความต้องการของเรา ได้สรุปและเปิดตัว "Z-Bench" ซึ่งเป็นเครื่องมือสำหรับบุคลากรที่ไม่ใช่ด้านเทคนิคในการทดสอบผลิตภัณฑ์การสนทนารุ่นใหญ่ในเชิงคุณภาพ (ผลิตภัณฑ์ที่คล้ายกับ ChatGPT ) ชุดทดสอบ
"Z-Bench v1.0" มอบการแจ้งเตือนทั้งหมด 300 รายการจากสามมุมมอง: ความสามารถพื้นฐาน ความสามารถขั้นสูง และความสามารถในแนวดิ่ง จุดเริ่มต้นของเราคือการครอบคลุมงาน NLP หลายประเภทให้ได้มากที่สุด เป้าหมายของเราไม่ใช่การจัดหาชุดการทดสอบที่เข้มงวดทางวิชาการและครบถ้วน แต่เพื่อรวมชุดการทดสอบทางวิชาการที่มีอยู่ กรณีที่น่าสนใจบางกรณีที่รวบรวมไว้ทุกวัน และความสามารถในการเกิดขึ้นและศักดิ์สิทธิ์ที่ค้นพบโดยชุมชนวิชาการหลังจากการเกิดขึ้นของแบบจำลองขนาดใหญ่ ชุดทดสอบความเชี่ยวชาญแบบจำลองเหมาะสำหรับการใช้งานโดยผู้เชี่ยวชาญที่ไม่ใช่ด้านเทคนิค อย่างไรก็ตาม เราจะพลาดบางฉากอย่างหลีกเลี่ยงไม่ได้ หรือจะมีเนื้อหาที่ไม่ชำนาญจำนวนมากจากมุมมองของมืออาชีพ ในอนาคต เราจะเสริมและปรับปรุงเนื้อหาดังกล่าวต่อไปตามความคิดเห็นที่เรารวบรวม และเผยแพร่ในเวลาที่เหมาะสม
© 2023 ZhenFund