สถาบันวิจัย Zhiyuan และ Tencent ร่วมกันเปิดตัว LongBench v2 ซึ่งเป็นแพลตฟอร์มการทดสอบเกณฑ์มาตรฐานสำหรับการประเมินความสามารถในการทำความเข้าใจข้อความขนาดยาวและความสามารถในการใช้เหตุผลของโมเดลภาษาขนาดใหญ่ (LLM) LongBench v2 ปรับปรุงความยาวข้อความและความยากของการประเมินได้อย่างมาก ซึ่งรวมถึงคำถามแบบปรนัยสี่ตัวเลือกที่ท้าทายจำนวน 503 ข้อ ซึ่งทำให้แม้แต่ผู้เชี่ยวชาญที่เป็นมนุษย์ก็ยากที่จะได้รับความแม่นยำสูงในระยะเวลาอันสั้น เกณฑ์มาตรฐานครอบคลุมงานหลักหกประเภท และรวมถึงการปรับปรุงวิธีการประเมินผลเพื่อเพิ่มความน่าเชื่อถือและความแม่นยำของผลลัพธ์ ความเคลื่อนไหวนี้มีจุดมุ่งหมายเพื่อส่งเสริมความก้าวหน้าของแบบจำลองภาษาขนาดใหญ่ในการประมวลผลข้อความขนาดยาว และมอบเครื่องมือประเมินผลที่มีประสิทธิภาพมากขึ้นสำหรับการวิจัยที่เกี่ยวข้อง
ในงานแถลงข่าวเมื่อวันที่ 19 ธันวาคม 2567 สถาบันวิจัย Zhiyuan และ Tencent ได้ประกาศเปิดตัว LongBench v2 ซึ่งได้รับการออกแบบมาเพื่อประเมินความสามารถด้านความเข้าใจเชิงลึกและการใช้เหตุผลของโมเดลภาษาขนาดใหญ่ (LLM) ในงานมัลติทาสก์ข้อความยาวในโลกแห่งความเป็นจริง เกณฑ์มาตรฐานที่ออกแบบ แพลตฟอร์มนี้มีจุดมุ่งหมายเพื่อส่งเสริมความก้าวหน้าของโมเดลข้อความยาวในการทำความเข้าใจและการให้เหตุผล และตอบสนองต่อความท้าทายในปัจจุบันในการประยุกต์ใช้โมเดลข้อความยาวและภาษาขนาดใหญ่
คุณสมบัติเด่นของ LongBench v2 ได้แก่ การรองรับข้อความที่ยาวขึ้น ตั้งแต่ 8,000 ถึง 2 ล้านคำ และประกอบด้วยคำถามแบบปรนัยสี่ตัวเลือกที่ท้าทาย 503 ข้อที่มีความยากสูงกว่า แม้แต่ความแม่นยำโดยเฉลี่ยของผู้เชี่ยวชาญที่เป็นมนุษย์ใน 15 นาที อัตรานี้มีเพียง 53.7% . นอกจากนี้ เกณฑ์มาตรฐานยังครอบคลุมงานหลัก 6 ประเภท ได้แก่ Q&A เอกสารเดียว Q&A หลายเอกสาร การเรียนรู้บริบทข้อความยาว ฯลฯ เพื่อให้มั่นใจว่าสถานการณ์การใช้งานที่หลากหลาย
เพื่อให้มั่นใจในความน่าเชื่อถือของการประเมิน คำถามทั้งหมดใน LongBench v2 จะอยู่ในรูปแบบของคำถามแบบปรนัย และต้องผ่านคำอธิบายประกอบและกระบวนการตรวจสอบโดยเจ้าหน้าที่ที่เข้มงวด ในระหว่างกระบวนการรวบรวมข้อมูล ได้มีการคัดเลือกผู้อธิบายจากมหาวิทยาลัยชั้นนำเพื่อให้มั่นใจในคุณภาพและความยากของคำถาม ด้วยการแนะนำตัวแปรควบคุม LongBench v2 จึงปรับปรุงอัลกอริธึมทางสถิติดั้งเดิมของแบรดลีย์-เทอร์รี่ ลดผลกระทบของปัจจัยที่กวนใจ และทำให้การจัดอันดับแบบจำลองเป็นวิทยาศาสตร์และแม่นยำมากขึ้น
ในแง่ของผลการประเมิน ทีมวิจัยได้ทดสอบ LLM แบบโอเพ่นซอร์ส 10 ตัว และ LLM แบบปิด 6 ตัว และพบว่าประสิทธิภาพของแบบจำลองได้รับการปรับปรุงอย่างมีนัยสำคัญหลังจากแนะนำตัวแปรควบคุม โดยเฉพาะอย่างยิ่ง โมเดล GPT-4o ทำงานได้ดีในงานต่างๆ เช่น การตอบคำถามหลายเอกสาร และการเรียนรู้บริบทข้อความยาว หลังจากแนะนำขั้นตอนการให้เหตุผลเพิ่มเติม ซึ่งแสดงให้เห็นถึงความสำคัญของความสามารถในการให้เหตุผล
การเปิดตัว LongBench v2 ไม่เพียงแต่มอบเครื่องมือใหม่สำหรับการประเมินแบบจำลองภาษาขนาดใหญ่เท่านั้น แต่ยังชี้ให้เห็นทิศทางสำหรับการวิจัยในอนาคต โดยเน้นย้ำถึงความสำคัญของการปรับปรุงความสามารถในการทำความเข้าใจและการให้เหตุผลของแบบจำลอง ความร่วมมือระหว่าง Zhiyuan Research Institute และ Tencent ถือเป็นการพัฒนาเพิ่มเติมในด้านเทคโนโลยี AI โดยคาดว่าการทดสอบเกณฑ์มาตรฐานนี้สามารถส่งเสริมความก้าวหน้าของเทคโนโลยีการทำความเข้าใจข้อความขนาดยาวและการใช้เหตุผลได้
หน้าแรก: https://longbench2.github.io
บทความ: https://arxiv.org/abs/2412.15204
ข้อมูลและรหัส: https://github.com/THUDM/LongBench
การเปิดตัว LongBench v2 ถือเป็นก้าวใหม่ของการประเมินโมเดลภาษาขนาดใหญ่ โดยมาตรฐานการประเมินที่เข้มงวดยิ่งขึ้น และเนื้อหาการทดสอบที่ครอบคลุมมากขึ้น จะช่วยส่งเสริมการพัฒนาโมเดลภาษาขนาดใหญ่อย่างต่อเนื่องในด้านความสามารถในการทำความเข้าใจข้อความขนาดยาวและการให้เหตุผล เราหวังว่าจะได้รับผลการวิจัยเพิ่มเติมเกี่ยวกับ LongBench v2 ที่ปรากฏในอนาคต เพื่อส่งเสริมการพัฒนาเทคโนโลยี AI ต่อไป