บรรณาธิการของ Downcodes ได้เรียนรู้ว่า Apple เพิ่งเผยแพร่การศึกษาเกี่ยวกับความสามารถในการให้เหตุผลทางคณิตศาสตร์ของโมเดลภาษาขนาดใหญ่ (LLM) ซึ่งดึงดูดความสนใจอย่างกว้างขวางในอุตสาหกรรม การศึกษานี้ตั้งคำถามถึงประสิทธิภาพของ LLM ที่มีอยู่ในเกณฑ์มาตรฐาน GSM8K และแนะนำเกณฑ์มาตรฐาน GSM-Symbolic ที่ปรับปรุงใหม่ เพื่อประเมินความสามารถในการให้เหตุผลของ LLM ได้อย่างน่าเชื่อถือมากขึ้น งานวิจัยนี้มีความสำคัญอย่างยิ่งในการทำความเข้าใจข้อจำกัดของ LLM ในสาขาคณิตศาสตร์ และยังให้ข้อมูลเชิงลึกที่มีคุณค่าเกี่ยวกับทิศทางของการปรับปรุง LLM ในอนาคต
เมื่อเร็วๆ นี้ Apple ได้ทำการศึกษาเกี่ยวกับความสามารถในการให้เหตุผลของแบบจำลองภาษาขนาดใหญ่ (LLM) ซึ่งทำให้เกิดข้อกังวลเกี่ยวกับประสิทธิภาพของแบบจำลองเหล่านี้ในสาขาคณิตศาสตร์
เป็นที่ทราบกันดีว่าเกณฑ์มาตรฐาน GSM8K ถูกนำมาใช้กันอย่างแพร่หลายในการประเมินความสามารถในการให้เหตุผลของแบบจำลองเกี่ยวกับปัญหาคณิตศาสตร์ของโรงเรียนประถมศึกษา แม้ว่าประสิทธิภาพของ LLM บน GSM8K จะดีขึ้นในช่วงไม่กี่ปีที่ผ่านมา แต่นักวิจัยก็ยังตั้งคำถามถึงความน่าเชื่อถือของผลลัพธ์นี้ ดังนั้น พวกเขาจึงทำการศึกษาขนาดใหญ่เพื่อสำรวจประสิทธิภาพของโมเดลโอเพ่นซอร์สและโอเพ่นซอร์สที่ล้ำสมัยในปัจจุบัน
เพื่อประเมินความสามารถในการให้เหตุผลของแบบจำลองได้ดีขึ้น ทีมวิจัยได้แนะนำการทดสอบเกณฑ์มาตรฐานที่ได้รับการปรับปรุง - GSM-Symbolic เกณฑ์มาตรฐานใหม่นี้ใช้เทมเพลตสัญลักษณ์เพื่อสร้างคำถามที่หลากหลาย ช่วยให้ควบคุมกระบวนการประเมินได้ดีขึ้นและให้หน่วยวัดที่เชื่อถือได้มากขึ้น
การศึกษาพบว่าประสิทธิภาพของ LLM มีความผันผวนอย่างมีนัยสำคัญเมื่อค่าตัวเลขในปัญหามีการเปลี่ยนแปลง สิ่งที่น่าสนใจกว่านั้นคือประสิทธิภาพของแบบจำลองลดลงอย่างมากเมื่อจำนวนคำศัพท์ในคำถามเพิ่มขึ้น นักวิจัยคาดการณ์ว่าประสิทธิภาพที่ลดลงนี้บ่งชี้ว่า LLM ที่มีอยู่ไม่มีความสามารถในการให้เหตุผลเชิงตรรกะที่แท้จริง แต่เพียงแค่เลียนแบบขั้นตอนการให้เหตุผลในข้อมูลการฝึกอบรม
ในการทดลอง ประสิทธิภาพของแบบจำลองที่ล้ำสมัยทั้งหมดลดลงมากถึง 65% เมื่อเพิ่มคำศัพท์ที่เกี่ยวข้องเพียงคำเดียว แม้ว่าข้อกำหนดเหล่านี้จะไม่เกี่ยวข้องกับห่วงโซ่การให้เหตุผลซึ่งนำไปสู่คำตอบสุดท้าย แต่ก็ยังมีผลกระทบอย่างมากต่อประสิทธิภาพของแบบจำลอง โดยรวมแล้ว การศึกษาครั้งนี้ทำให้เรามีความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับความสามารถและข้อจำกัดของ LLM ในการให้เหตุผลทางคณิตศาสตร์
ไฮไลท์:
ความสามารถในการให้เหตุผลทางคณิตศาสตร์ของ LLM แสดงให้เห็นความแตกต่างที่ชัดเจนในกรณีปัญหาต่างๆ
เมื่อความซับซ้อนของปัญหาเพิ่มขึ้น ประสิทธิภาพของ LLM จะลดลงอย่างมาก โดยเฉพาะอย่างยิ่งหลังจากเพิ่มเงื่อนไขเพิ่มเติม
LLM ที่มีอยู่ไม่มีความสามารถในการให้เหตุผลเชิงตรรกะที่แท้จริง และส่วนใหญ่อาศัยการทำซ้ำและการเลียนแบบข้อมูลการฝึกอบรม
งานวิจัยของ Apple นี้เผยให้เห็นข้อบกพร่องของแบบจำลองภาษาขนาดใหญ่ในการให้เหตุผลทางคณิตศาสตร์ และให้แนวทางที่สำคัญสำหรับการปรับปรุงแบบจำลองในอนาคต การวิจัยเพิ่มเติมคาดว่าจะปรับปรุงความสามารถในการให้เหตุผลเชิงตรรกะของ LLM และเข้าใกล้ระดับความรู้ความเข้าใจของมนุษย์มากขึ้น บรรณาธิการของ Downcodes จะยังคงให้ความสนใจกับการพัฒนาล่าสุดในสาขานี้ต่อไป