เกณฑ์มาตรฐาน Multi-IF ล่าสุดที่ออกโดย Meta มีเป้าหมายเพื่อประเมินคำสั่งตามความสามารถของโมเดลภาษาขนาดใหญ่ (LLM) อย่างครอบคลุมมากขึ้นในการสนทนาแบบหลายรอบและสภาพแวดล้อมหลายภาษา แตกต่างจากมาตรฐานการประเมินก่อนหน้านี้ที่เน้นไปที่รอบเดียวและภาษาเดียว Multi-IF ครอบคลุมแปดภาษาและมีงานบทสนทนาสามรอบ 4,501 งาน โดยมุ่งมั่นที่จะจำลองความซับซ้อนของสถานการณ์การใช้งานจริงและมอบความเข้มงวดและเข้มงวดมากขึ้น การประเมินที่ท้าทายสำหรับมาตรฐานทางเพศ ผลการทดสอบเกณฑ์มาตรฐานเผยให้เห็นข้อบกพร่องมากมายของ LLM ในปัจจุบันในการสนทนาแบบหลายรอบและงานหลายภาษา โดยเป็นข้อมูลอ้างอิงที่มีคุณค่าสำหรับแนวทางการปรับปรุงแบบจำลองในอนาคต
Meta เพิ่งเปิดตัวการทดสอบเกณฑ์มาตรฐานใหม่ที่เรียกว่า Multi-IF ซึ่งออกแบบมาเพื่อประเมินคำสั่งตามความสามารถของโมเดลภาษาขนาดใหญ่ (LLM) ในการสนทนาแบบหลายรอบและสภาพแวดล้อมหลายภาษา เกณฑ์มาตรฐานนี้ครอบคลุมแปดภาษาและมีงานบทสนทนาสามรอบ 4,501 งานโดยเน้นที่ประสิทธิภาพของรุ่นปัจจุบันในสถานการณ์ที่ซับซ้อนแบบหลายรอบและหลายภาษา
ในบรรดามาตรฐานการประเมินที่มีอยู่ ส่วนใหญ่มุ่งเน้นไปที่การสนทนาแบบเลี้ยวเดียวและงานที่ใช้ภาษาเดียว ซึ่งเป็นเรื่องยากที่จะสะท้อนประสิทธิภาพของแบบจำลองในการใช้งานจริงได้อย่างเต็มที่ การเปิดตัว Multi-IF คือการเติมเต็มช่องว่างนี้ ทีมวิจัยสร้างสถานการณ์การสนทนาที่ซับซ้อนโดยขยายคำสั่งรอบเดียวเป็นคำสั่งหลายรอบ และตรวจสอบให้แน่ใจว่าคำสั่งแต่ละรอบมีความสอดคล้องกันในเชิงตรรกะและก้าวหน้า นอกจากนี้ ชุดข้อมูลยังรองรับหลายภาษาผ่านขั้นตอนต่างๆ เช่น การแปลอัตโนมัติและการพิสูจน์อักษรด้วยตนเอง
ผลการทดลองแสดงให้เห็นว่าประสิทธิภาพของ LLM ส่วนใหญ่ลดลงอย่างมีนัยสำคัญในการสนทนาหลายรอบ ยกตัวอย่างโมเดล o1-preview ความแม่นยำเฉลี่ยในรอบแรกอยู่ที่ 87.7% แต่ลดลงเหลือ 70.7% ในรอบที่สาม โดยเฉพาะอย่างยิ่งในภาษาที่มีสคริปต์ที่ไม่ใช่ละติน เช่น ฮินดี รัสเซีย และจีน ประสิทธิภาพของโมเดลโดยทั่วไปจะต่ำกว่าภาษาอังกฤษ ซึ่งแสดงข้อจำกัดในงานหลายภาษา
ในการประเมินโมเดลภาษาล้ำสมัย 14 โมเดล o1-preview และ Llama3.1405B ทำงานได้ดีที่สุด โดยมีอัตราความแม่นยำเฉลี่ย 78.9% และ 78.1% ในคำสั่งสามรอบตามลำดับ อย่างไรก็ตาม ในการสนทนาหลายรอบ โมเดลทั้งหมดแสดงให้เห็นว่าความสามารถในการปฏิบัติตามคำสั่งลดลงโดยทั่วไป ซึ่งสะท้อนถึงความท้าทายที่โมเดลต้องเผชิญในงานที่ซับซ้อน ทีมวิจัยยังได้แนะนำ "อัตราการลืมคำสั่ง" (IFR) เพื่อหาปริมาณปรากฏการณ์การลืมคำสั่งของแบบจำลองในการสนทนาหลายรอบ ผลการวิจัยพบว่าแบบจำลองประสิทธิภาพสูงมีประสิทธิภาพค่อนข้างดีในเรื่องนี้
การเปิดตัว Multi-IF ช่วยให้นักวิจัยมีเกณฑ์มาตรฐานที่ท้าทาย และส่งเสริมการพัฒนา LLM ในโลกาภิวัตน์และการใช้งานหลายภาษา การเปิดตัวเกณฑ์มาตรฐานนี้ไม่เพียงแต่เผยให้เห็นข้อบกพร่องของรุ่นปัจจุบันในงานที่มีหลายรอบและหลายภาษา แต่ยังให้ทิศทางที่ชัดเจนสำหรับการปรับปรุงในอนาคต
บทความ: https://arxiv.org/html/2410.15553v2
ไฮไลท์:
เกณฑ์มาตรฐาน Multi-IF ครอบคลุมแปดภาษา มีงานบทสนทนาสามรอบ 4,501 งาน และประเมินประสิทธิภาพของ LLM ในสถานการณ์ที่ซับซ้อน
การทดลองแสดงให้เห็นว่าความแม่นยำของ LLM ส่วนใหญ่ลดลงอย่างมากในบทสนทนาหลายรอบ โดยเฉพาะในภาษาที่ไม่มีสคริปต์ที่ไม่ใช่ภาษาละติน
โมเดล o1-preview และ Llama3.1405B ทำงานได้ดีที่สุด โดยมีอัตราความแม่นยำเฉลี่ย 78.9% และ 78.1% สำหรับคำสั่งสามรอบตามลำดับ
โดยรวมแล้ว การเกิดขึ้นของเกณฑ์มาตรฐาน Multi-IF ทำให้เกิดทิศทางใหม่สำหรับการประเมินแบบจำลองภาษาขนาดใหญ่ โดยมุ่งเน้นไปที่การสนทนาแบบหลายรอบและการสนับสนุนหลายภาษา จะช่วยส่งเสริมการประยุกต์ใช้และการพัฒนาเทคโนโลยี LLM ในระดับโลก และส่งเสริมการเกิดโมเดลที่ชาญฉลาดและใกล้เคียงกับการใช้งานจริงมากขึ้น