โมเดลภาษาขนาดใหญ่ (LLM) ที่มีหน้าต่างบริบทที่ยาวมากกำลังพัฒนาอย่างรวดเร็ว และความสามารถในการประมวลผลข้อมูลได้ดึงดูดความสนใจอย่างกว้างขวาง อย่างไรก็ตาม มีความท้าทายในการประเมินความสามารถของแบบจำลองเหล่านี้ในการทำความเข้าใจและใช้ข้อมูลจำนวนมาก นักวิจัยที่ Google DeepMind ได้พัฒนาเกณฑ์มาตรฐานของ Michelangelo เพื่อจุดประสงค์นี้ โดยมีเป้าหมายเพื่อประเมินความสามารถในการให้เหตุผลของ LLM แบบบริบทยาวอย่างลึกซึ้งยิ่งขึ้น และให้คำแนะนำสำหรับการปรับปรุงแบบจำลองในอนาคต
เมื่อเร็ว ๆ นี้ โมเดลภาษาขนาดใหญ่ (LLM) ที่มีหน้าต่างบริบทยาวมาก กลายเป็นหัวข้อสนทนาที่ร้อนแรง โมเดลเหล่านี้สามารถรองรับโทเค็นนับแสนหรือหลายล้านโทเค็นได้ในครั้งเดียว ซึ่งเปิดโอกาสใหม่ๆ มากมายสำหรับนักพัฒนา อย่างไรก็ตาม LLM บริบทขนาดยาวเหล่านี้สามารถเข้าใจและใช้ข้อมูลขนาดใหญ่ที่ได้รับได้ดีเพียงใด เพื่อแก้ปัญหานี้ นักวิจัยที่ Google DeepMind ได้เปิดตัวเกณฑ์มาตรฐานใหม่ที่เรียกว่า Michelangelo ซึ่งออกแบบมาเพื่อประเมินความสามารถในการพุชบริบทขนาดยาว ผลการวิจัยพบว่าแม้ว่าแบบจำลองที่ล้ำสมัยในปัจจุบันจะมีความคืบหน้าในการดึงข้อมูลจากข้อมูลเชิงบริบทจำนวนมาก แต่ก็ยังมีปัญหาในงานที่ต้องใช้เหตุผลและความเข้าใจโครงสร้างของข้อมูล เมื่อ LLM ที่มีหน้าต่างบริบทยาวปรากฏขึ้น นักวิจัยเริ่มตระหนักว่าจำเป็นต้องมีการวัดประสิทธิภาพใหม่เพื่อประเมินความสามารถของแบบจำลองเหล่านี้ การประเมินที่มีอยู่ส่วนใหญ่มุ่งเน้นไปที่งานการดึงข้อมูล เช่น การประเมิน "การค้นหาเข็มในกองหญ้า" นั่นคือการค้นหาข้อมูลเฉพาะในบริบทจำนวนมาก อย่างไรก็ตาม การดึงข้อมูลอย่างง่ายไม่เท่ากับความเข้าใจของแบบจำลองในบริบทโดยรวม เพื่อแก้ไขปัญหาเหล่านี้ Michelangelo เสนอวิธีการประเมินผลใหม่โดยกำหนดงานที่ซับซ้อนซึ่งต้องใช้แบบจำลองในการให้เหตุผลและการสังเคราะห์เชิงลึกมากขึ้นเมื่อประมวลผลข้อความขนาดยาว ตัวอย่างเช่น กรอบงานการประเมินผลประกอบด้วยงานหลายอย่างที่เกี่ยวข้องกับการเขียนโปรแกรมและภาษาธรรมชาติ งานเหล่านี้ไม่เพียงแต่ทดสอบความสามารถด้านหน่วยความจำของโมเดลเท่านั้น แต่ยังมุ่งเน้นไปที่ความเข้าใจเชิงลึกและการประมวลผลข้อมูลอีกด้วย ในงานประเมินผลของ Michelangelo แบบจำลองจำเป็นต้องแก้ไขงานการสังเคราะห์เอกสารพื้นฐานขนาดยาวสามงาน ได้แก่ "รายการที่เป็นไปได้" "การแก้ปัญหาคอร์เรนซ์แบบหลายรอบ" และสถานการณ์การใช้งานอื่น ๆ อีกมากมาย งานเหล่านี้ไม่เพียงแต่ช่วยประเมินประสิทธิภาพของแบบจำลองในเอกสารขนาดยาวเท่านั้น แต่ยังเผยให้เห็นข้อบกพร่องในการอนุมานและการสังเคราะห์อีกด้วย อย่างแรกคือ "รายการที่เป็นไปได้" ซึ่งโมเดลจำเป็นต้องประมวลผลรายการการดำเนินการแบบยาวในรายการ Python โดยกรองคำสั่งที่ไม่เกี่ยวข้องหรือซ้ำซ้อนออกเพื่อกำหนดสถานะสุดท้ายของรายการ รายการที่สองคือ "การแก้ปัญหาการอ้างอิงแบบหลายรอบ" ซึ่งโมเดลจำเป็นต้องเข้าใจโครงสร้างการสนทนาและแก้ไขปัญหาการอ้างอิงในการสนทนาที่ยาวนาน รายการที่สามคือ "ฉันไม่รู้" เมื่อตอบคำถามแบบปรนัย แบบจำลองจะต้องพิจารณาว่าคำตอบนั้นรวมอยู่ในบริบทหรือไม่ และสามารถตอบคำถาม "ฉันไม่รู้" ได้อย่างถูกต้อง นักวิจัยประเมิน Michelangelo เทียบกับ LLM ชั้นนำ 10 แห่ง รวมถึง Gemini, GPT-4 และ Claude รุ่นต่างๆ และพวกเขาก็ทดสอบโมเดลในบริบทของโทเค็นมากถึง 1 ล้านโทเค็น โมเดล Gemini ทำงานได้ดีที่สุดบน MRCR โมเดล GPT ทำงานได้ดีบน Latent List และ Claude3.5Sonnet ได้รับคะแนนสูงสุดใน IDK
บรรณาธิการของ Downcodes สรุป: การเกิดขึ้นของเกณฑ์มาตรฐานของ Michelangelo ทำให้เกิดมุมมองใหม่สำหรับการประเมิน LLM บริบทที่ยาวเป็นพิเศษ และยังชี้ให้เห็นข้อบกพร่องของแบบจำลองในปัจจุบันในด้านความสามารถในการให้เหตุผลที่ซับซ้อน ในอนาคต LLM ที่มีประสิทธิภาพมากขึ้นจะต้องบรรลุความก้าวหน้าในความสามารถในการให้เหตุผลเพื่อรับมือกับงานที่ซับซ้อนและสถานการณ์การใช้งานได้ดียิ่งขึ้น เราหวังว่าจะมีการวิจัยในอนาคตที่ทำให้เราประหลาดใจมากขึ้น!