บรรณาธิการของ Downcodes ได้เรียนรู้ว่าสถาบันวิจัยปัญญาประดิษฐ์ Beijing Zhiyuan (BAAI) ได้เปิดตัวแพลตฟอร์มโต้วาทีโมเดลขนาดใหญ่ของจีนแห่งแรกของโลก FlagEval Debate! ด้วยการถกเถียงเรื่องโมเดลเป็นหลัก แพลตฟอร์มดังกล่าวมอบวิธีการวัดใหม่สำหรับการประเมินความสามารถของโมเดลภาษาขนาดใหญ่ โดยมีเป้าหมายเพื่อแยกแยะความแตกต่างด้านความสามารถของโมเดลขนาดใหญ่ต่างๆ ได้อย่างมีประสิทธิภาพมากขึ้น ใช้การอภิปรายซึ่งเป็นกิจกรรมทางปัญญาที่ใช้ภาษาอย่างชาญฉลาด เพื่อตรวจสอบความสามารถของแบบจำลองอย่างครอบคลุมในการทำความเข้าใจข้อมูล การใช้เหตุผลเชิงตรรกะ การสร้างภาษา ฯลฯ และรับรองความถูกต้องทางวิทยาศาสตร์และอำนาจของผลการประเมินผ่านการผสมผสานระหว่างการทดสอบสาธารณะและการทบทวนโดยผู้เชี่ยวชาญ . เพศ. การเคลื่อนไหวครั้งนี้ถือเป็นก้าวใหม่ในการประเมินแบบจำลองขนาดใหญ่ และให้ข้อมูลอ้างอิงและการอ้างอิงที่มีคุณค่าสำหรับอุตสาหกรรม
สถาบันวิจัยปัญญาประดิษฐ์จือหยวน (BAAI) ปักกิ่ง เปิดตัว FlagEval Debate ซึ่งเป็นแพลตฟอร์มโต้วาทีโมเดลขนาดใหญ่แห่งแรกของโลก แพลตฟอร์มใหม่นี้มีจุดมุ่งหมายเพื่อมอบวิธีการวัดใหม่สำหรับการประเมินความสามารถของโมเดลภาษาขนาดใหญ่ ผ่านทางกลไกการแข่งขันของการถกเถียงเกี่ยวกับโมเดล เป็นส่วนเสริมของบริการประเมินการต่อสู้แบบจำลองแหล่งที่มาอัจฉริยะ FlagEval เวทีโมเดลขนาดใหญ่ และเป้าหมายคือการระบุความแตกต่างด้านความสามารถระหว่างโมเดลภาษาขนาดใหญ่
มีปัญหาบางอย่างในการต่อสู้แบบจำลองขนาดใหญ่ที่มีอยู่ ตัวอย่างเช่น ผลลัพธ์ของการต่อสู้แบบจำลองมักจะเชื่อมโยงกัน และเป็นการยากที่จะแยกแยะความแตกต่างระหว่างแบบจำลองต่างๆ เนื้อหาทดสอบขึ้นอยู่กับการโหวตของผู้ใช้และต้องมีส่วนร่วมของผู้ใช้จำนวนมาก วิธีการต่อสู้ขาดปฏิสัมพันธ์ระหว่างโมเดล เพื่อแก้ไขปัญหาเหล่านี้ สถาบันทรัพย์สินทางปัญญาจึงนำรูปแบบการอภิปรายแบบจำลองขนาดใหญ่มาประเมินผล
ในฐานะกิจกรรมทางปัญญาที่ใช้ภาษา การอภิปรายสามารถสะท้อนถึงการคิดเชิงตรรกะ การจัดระเบียบภาษา การวิเคราะห์ข้อมูล และความสามารถในการประมวลผลของผู้เข้าร่วม การอภิปรายแบบจำลองสามารถแสดงให้เห็นถึงระดับของแบบจำลองขนาดใหญ่ในด้านความเข้าใจข้อมูล การบูรณาการความรู้ การใช้เหตุผลเชิงตรรกะ การสร้างภาษา และความสามารถด้านการสนทนา ในขณะเดียวกันก็ทดสอบความลึกในการประมวลผลข้อมูลและความสามารถในการปรับตัวในการโยกย้ายในบริบทที่ซับซ้อน
สถาบันวิจัย Zhiyuan พบว่าการต่อสู้เชิงโต้ตอบ เช่น การโต้วาทีสามารถเน้นช่องว่างระหว่างแบบจำลอง และคำนวณการจัดอันดับที่มีประสิทธิภาพของแบบจำลองโดยอิงจากตัวอย่างข้อมูลจำนวนเล็กน้อย ดังนั้น พวกเขาจึงเปิดตัว FlagEval Debate ซึ่งเป็นแพลตฟอร์มโต้วาทีโมเดลขนาดใหญ่ของจีนที่อิงจากการทดสอบสาธารณะ
แพลตฟอร์มนี้สนับสนุนสองโมเดลในการดำเนินการโต้วาทีเกี่ยวกับหัวข้อการอภิปราย หัวข้อการอภิปรายจะถูกเลือกโดยสุ่มโดยแพลตฟอร์ม ฐานข้อมูลหัวข้อการอภิปรายส่วนใหญ่ประกอบด้วยหัวข้อการค้นหายอดนิยม ผู้เชี่ยวชาญด้านการประเมินผล และหัวข้อการอภิปรายที่ได้รับคำสั่งจากผู้เชี่ยวชาญด้านการอภิปรายชั้นนำ ผู้ใช้ทุกคนสามารถตัดสินการอภิปรายทุกครั้งบนแพลตฟอร์มเพื่อปรับปรุงประสบการณ์ผู้ใช้
ดีเบตแต่ละรุ่นมีการนำเสนอความคิดเห็น 5 รอบ โดยแต่ละฝ่ายมีโอกาสเพียงครั้งเดียว เพื่อหลีกเลี่ยงการเบี่ยงเบนที่เกิดจากตำแหน่งของกำลังสองบวกและลบ ทั้งสองรุ่นจะทำอย่างละหนึ่งกำลังสองและลบหนึ่งกำลังสอง โมเดลขนาดใหญ่แต่ละโมเดลแข่งขันกันในการโต้วาทีหลายครั้งกับโมเดลอื่นๆ โดยการจัดอันดับโมเดลขั้นสุดท้ายจะคำนวณตามคะแนนที่ชนะ
การแข่งขันโต้วาทีแบบจำลองใช้สองวิธี: การทดสอบแบบเปิดเผยและการประเมินโดยผู้เชี่ยวชาญ คณะกรรมการผู้เชี่ยวชาญประกอบด้วยผู้เล่นและผู้ตัดสินจากการแข่งขันโต้วาทีระดับมืออาชีพ ผู้ชมการทดสอบสาธารณะแบบเปิดสามารถชื่นชมและลงคะแนนได้อย่างอิสระ
Zhiyuan Research Institute ระบุว่าจะยังคงสำรวจเส้นทางทางเทคนิคและคุณค่าของการประยุกต์การอภิปรายเกี่ยวกับโมเดลต่อไป ยึดมั่นในหลักการทางวิทยาศาสตร์ อำนาจ ความยุติธรรม และความเปิดกว้าง ตลอดจนปรับปรุงระบบการประเมินโมเดลขนาดใหญ่ FlagEval อย่างต่อเนื่อง และมอบข้อมูลเชิงลึกและแนวคิดใหม่ๆ สำหรับ นิเวศวิทยาการประเมินแบบจำลองขนาดใหญ่
เว็บไซต์ทางการของ FlagEval Debate:
https://flageval.baai.org/#/debate
การเปิดตัว FlagEval Debate มอบแนวคิดและวิธีการใหม่ๆ สำหรับการประเมินโมเดลขนาดใหญ่ และยังมีส่วนช่วยในการพัฒนาเทคโนโลยีโมเดลขนาดใหญ่อีกด้วย บรรณาธิการของ Downcodes หวังว่าแพลตฟอร์มดังกล่าวจะได้รับการปรับปรุงอย่างต่อเนื่องในอนาคต และนำนวัตกรรมและความก้าวหน้าใหม่ๆ มาสู่โมเดลขนาดใหญ่มากขึ้น