บรรณาธิการของ Downcodes ได้เรียนรู้ว่านักวิจัยของ Apple ได้เปิดตัวการทดสอบเกณฑ์มาตรฐานใหม่ที่เรียกว่า GSM-Symbolic สำหรับความสามารถในการให้เหตุผลทางคณิตศาสตร์ของโมเดลภาษาขนาดใหญ่ (LLM) การทดสอบนี้อิงตาม GSM8K และออกแบบมาเพื่อประเมินความสามารถในการให้เหตุผลของ LLM อย่างครอบคลุมมากขึ้น แทนที่จะอาศัยการจับคู่รูปแบบความน่าจะเป็นเพียงอย่างเดียว แม้ว่า GSM8K จะได้รับความนิยม แต่ก็มีปัญหาต่างๆ เช่น มลภาวะของข้อมูลและความผันผวนของประสิทธิภาพ GSM-Symbolic เอาชนะข้อบกพร่องเหล่านี้โดยการสร้างปัญหาทางคณิตศาสตร์ที่หลากหลายจากเทมเพลตสัญลักษณ์ ซึ่งรับประกันว่าการประเมินจะแม่นยำยิ่งขึ้น
เมื่อเร็วๆ นี้ นักวิจัยของ Apple ได้ทำการศึกษาเชิงลึกเกี่ยวกับความสามารถในการให้เหตุผลทางคณิตศาสตร์ของโมเดลภาษาขนาดใหญ่ (LLM) และเปิดตัวเกณฑ์มาตรฐานใหม่ที่เรียกว่า GSM-Symbolic
เกณฑ์มาตรฐานใหม่นี้ได้รับการพัฒนาบนพื้นฐานของ GSM8K ซึ่งใช้เพื่อประเมินความสามารถทางคณิตศาสตร์ขั้นพื้นฐานเป็นหลัก แม้ว่าประสิทธิภาพของ LLM จำนวนมากจะได้รับการปรับปรุงบน GSM8K แต่ชุมชนวิทยาศาสตร์ยังคงมีคำถามเกี่ยวกับความสามารถในการให้เหตุผลของแบบจำลองเหล่านี้ โดยเชื่อว่าตัวชี้วัดการประเมินที่มีอยู่อาจไม่สะท้อนถึงความสามารถที่แท้จริงของพวกเขาได้อย่างสมบูรณ์ การวิจัยพบว่า LLM มักจะอาศัยการจับคู่รูปแบบความน่าจะเป็นมากกว่าการใช้เหตุผลเชิงตรรกะที่แท้จริง ทำให้พวกมันไวต่อการเปลี่ยนแปลงอินพุตเล็กน้อย
ในการศึกษาครั้งใหม่นี้ นักวิจัยใช้เทมเพลตสัญลักษณ์เพื่อสร้างปัญหาทางคณิตศาสตร์ที่หลากหลาย ซึ่งให้การประเมินที่เชื่อถือได้มากขึ้น ผลการทดลองแสดงให้เห็นว่าประสิทธิภาพของ LLM ลดลงอย่างมากเมื่อค่าตัวเลขหรือความซับซ้อนของปัญหาเพิ่มขึ้น นอกจากนี้ แม้แต่การเพิ่มข้อมูลที่เกี่ยวข้องกับปัญหาเพียงผิวเผินแต่ไม่เกี่ยวข้องจริงๆ ก็สามารถทำให้ประสิทธิภาพของโมเดลลดลงได้ถึง 65% ผลลัพธ์เหล่านี้ยืนยันอีกครั้งว่า LLM อาศัยการจับคู่รูปแบบมากกว่าการให้เหตุผลเชิงตรรกะอย่างเป็นทางการเมื่อให้เหตุผล
ชุดข้อมูล GSM8K มีปัญหาทางคณิตศาสตร์ระดับเกรดมากกว่า 8,000 ปัญหา และความนิยมทำให้เกิดความเสี่ยงหลายประการ เช่น การปนเปื้อนของข้อมูล และความผันผวนของประสิทธิภาพที่เกิดจากการเปลี่ยนแปลงปัญหาเล็กๆ น้อยๆ เพื่อที่จะจัดการกับความท้าทายเหล่านี้ การเกิดขึ้นของ GSM-Symbolic ช่วยให้สามารถควบคุมปัญหาที่หลากหลายได้อย่างมีประสิทธิภาพ เกณฑ์มาตรฐานนี้จะประเมินโมเดลแบบเปิดและแบบปิดมากกว่า 20 แบบโดยใช้ตัวอย่าง 5,000 ตัวอย่างจากเทมเพลต 100 แบบ ซึ่งแสดงให้เห็นถึงข้อมูลเชิงลึกและข้อจำกัดของความสามารถในการให้เหตุผลทางคณิตศาสตร์ของ LLM
การทดลองเบื้องต้นแสดงให้เห็นว่าประสิทธิภาพของรุ่นต่างๆ บน GSM-Symbolic นั้นแตกต่างกันอย่างมาก และความแม่นยำโดยรวมยังต่ำกว่าประสิทธิภาพที่รายงานบน GSM8K การศึกษาเพิ่มเติมได้สำรวจผลกระทบของการเปลี่ยนชื่อตัวแปรและค่าใน LLM และผลลัพธ์แสดงให้เห็นว่าการเปลี่ยนแปลงค่ามีผลกระทบต่อประสิทธิภาพมากขึ้น นอกจากนี้ ความซับซ้อนของปัญหายังส่งผลโดยตรงต่อความแม่นยำ โดยที่ปัญหาที่ซับซ้อนส่งผลให้ประสิทธิภาพลดลงอย่างมาก ผลลัพธ์เหล่านี้ชี้ให้เห็นว่าแบบจำลองอาจอาศัยการจับคู่รูปแบบมากกว่าความสามารถในการให้เหตุผลที่แท้จริงเมื่อต้องรับมือกับปัญหาทางคณิตศาสตร์
การศึกษานี้เน้นย้ำข้อจำกัดของการประเมิน GSM8K ในปัจจุบัน และแนะนำเกณฑ์มาตรฐานใหม่ GSM-Symbolic ซึ่งออกแบบมาเพื่อประเมินความสามารถในการให้เหตุผลทางคณิตศาสตร์ของ LLM โดยรวมแล้ว ผลการวิจัยระบุว่า LLM ยังคงจำเป็นต้องปรับปรุงความสามารถในการให้เหตุผลเชิงตรรกะเพิ่มเติมเมื่อต้องรับมือกับปัญหาที่ซับซ้อน
บทความ: https://arxiv.org/abs/2410.05229
โดยรวมแล้ว เกณฑ์มาตรฐาน GSM-Symbolic ที่เสนอโดย Apple มอบมุมมองใหม่สำหรับการประเมินความสามารถในการให้เหตุผลทางคณิตศาสตร์ของแบบจำลองภาษาขนาดใหญ่ นอกจากนี้ยังเผยให้เห็นว่า LLM ยังมีพื้นที่สำหรับการปรับปรุงในด้านการใช้เหตุผลเชิงตรรกะ ซึ่งชี้หนทางสำหรับการปรับปรุงแบบจำลองในอนาคต เราหวังว่าจะมีการวิจัยเพิ่มเติมในอนาคตเพื่อส่งเสริมการพัฒนาความสามารถในการให้เหตุผลของ LLM