เมื่อเร็ว ๆ นี้ คำถามเปรียบเทียบทางคณิตศาสตร์ที่ดูเหมือนง่าย "อันไหนใหญ่กว่า 13.8 หรือ 13.11" ทำให้หลายคนงงงวย รวมถึงโมเดล AI ขั้นสูงบางรุ่นด้วย บรรณาธิการของ Downcodes จะพาคุณเจาะลึกเหตุการณ์นี้ วิเคราะห์ข้อบกพร่องของ AI ในการจัดการกับปัญหาสามัญสำนึก และทิศทางของการปรับปรุงในอนาคต สิ่งนี้ไม่เพียงเผยให้เห็นข้อจำกัดของเทคโนโลยี AI เท่านั้น แต่ยังกระตุ้นให้ผู้คนคิดเกี่ยวกับการพัฒนา AI ในอนาคตอีกด้วย
เมื่อเร็ว ๆ นี้ คำถามทางคณิตศาสตร์ง่ายๆ ซึ่งใหญ่กว่า 13.8 หรือ 13.11 ไม่เพียงแต่ทำให้มนุษย์บางคนนิ่งงันเท่านั้น แต่ยังทำให้แบบจำลองภาษาขนาดใหญ่ (LLM) จำนวนมากประสบปัญหาอีกด้วย คำถามนี้จุดประกายให้เกิดการอภิปรายอย่างกว้างขวางเกี่ยวกับความสามารถของ AI ในการจัดการปัญหาสามัญสำนึก
ในรายการวาไรตี้ชื่อดัง ประเด็นนี้ทำให้เกิดการถกเถียงกันอย่างดุเดือดในหมู่ชาวเน็ต หลายคนคิดว่า 13.11% ควรมากกว่า 13.8% แต่จริงๆ แล้ว 13.8% นั้นมากกว่า
Lin Yuchen นักวิจัย AI2 พบว่าแม้แต่โมเดลภาษาขนาดใหญ่ เช่น GPT-4o ก็ทำผิดพลาดกับปัญหาการเปรียบเทียบง่ายๆ นี้ GPT-4o เชื่อผิดว่า 13.11 มีขนาดใหญ่กว่า 13.8 และให้คำอธิบายที่ผิด
การค้นพบของ Lin Yuchen กระตุ้นให้เกิดการอภิปรายอย่างดุเดือดในชุมชน AI อย่างรวดเร็ว โมเดลภาษาขนาดใหญ่อื่นๆ จำนวนมาก เช่น Gemini, Claude3.5Sonnet ฯลฯ ก็ทำผิดพลาดเช่นเดียวกันกับปัญหาการเปรียบเทียบง่ายๆ นี้
การเกิดขึ้นของปัญหานี้เผยให้เห็นความยากลำบากที่ AI สามารถเผชิญได้เมื่อต้องรับมือกับงานที่ดูเหมือนง่าย แต่จริงๆ แล้วเกี่ยวข้องกับการเปรียบเทียบเชิงตัวเลขที่แม่นยำ
แม้ว่าปัญญาประดิษฐ์จะมีความก้าวหน้าอย่างมากในหลายสาขา เช่น การเข้าใจภาษาธรรมชาติ การจดจำภาพ และการตัดสินใจที่ซับซ้อน แต่ก็ยังสามารถทำผิดพลาดได้เมื่อพูดถึงการดำเนินการทางคณิตศาสตร์ขั้นพื้นฐานและการให้เหตุผลเชิงตรรกะ ซึ่งแสดงให้เห็นถึงข้อจำกัดของเทคโนโลยีในปัจจุบัน
ทำไม AI ถึงทำผิดพลาดเช่นนี้?
อคติในข้อมูลการฝึก: ข้อมูลการฝึกสำหรับโมเดล AI อาจมีตัวอย่างไม่เพียงพอที่จะจัดการกับปัญหาการเปรียบเทียบเชิงตัวเลขประเภทนี้โดยเฉพาะ หากแบบจำลองถูกเปิดเผยข้อมูลระหว่างการฝึกซึ่งบ่งชี้ว่าตัวเลขที่มากกว่ามักจะมีตำแหน่งทศนิยมมากกว่าเสมอ แบบจำลองนั้นอาจตีความตำแหน่งทศนิยมมากกว่านั้นเป็นค่าที่มากกว่าอย่างไม่ถูกต้อง
ปัญหาความแม่นยำของจุดลอยตัว: ในวิทยาการคอมพิวเตอร์ การแสดงและการคำนวณจำนวนจุดลอยตัวเกี่ยวข้องกับปัญหาความแม่นยำ แม้แต่ความแตกต่างเล็กๆ น้อยๆ ก็อาจทำให้เกิดผลลัพธ์ที่ผิดพลาดได้เมื่อทำการเปรียบเทียบ โดยเฉพาะอย่างยิ่งหากไม่ได้ระบุความแม่นยำไว้อย่างชัดเจน
ความเข้าใจตามบริบทไม่เพียงพอ: แม้ว่าความชัดเจนของบริบทอาจไม่ใช่ปัญหาสำคัญในกรณีนี้ แต่โมเดล AI มักจะจำเป็นต้องตีความข้อมูลตามบริบทอย่างถูกต้อง ความเข้าใจผิดอาจเกิดขึ้นได้หากคำถามถูกกำหนดในลักษณะที่ไม่ชัดเจนเพียงพอหรือไม่ตรงกับรูปแบบทั่วไปของ AI ในข้อมูลการฝึกอบรม
ผลกระทบของการออกแบบที่รวดเร็ว: วิธีที่คุณถามคำถามกับ AI มีความสำคัญอย่างยิ่งต่อการได้รับคำตอบที่ถูกต้อง วิธีการตั้งคำถามที่แตกต่างกันอาจส่งผลต่อความเข้าใจและความแม่นยำของคำตอบของ AI
จะปรับปรุงอย่างไร?
ข้อมูลการฝึกอบรมที่ได้รับการปรับปรุง: ด้วยการให้ข้อมูลการฝึกอบรมที่หลากหลายและแม่นยำยิ่งขึ้น แบบจำลอง AI จึงสามารถช่วยให้เข้าใจการเปรียบเทียบเชิงตัวเลขและแนวคิดทางคณิตศาสตร์พื้นฐานอื่นๆ ได้ดียิ่งขึ้น
เพิ่มประสิทธิภาพการออกแบบพร้อมท์: การกำหนดปัญหาที่ออกแบบมาอย่างดีสามารถเพิ่มโอกาสที่ AI จะให้คำตอบที่ถูกต้องได้ ตัวอย่างเช่น การใช้ตัวเลขและวิธีการตั้งคำถามที่ชัดเจนยิ่งขึ้นสามารถลดความคลุมเครือได้
ปรับปรุงความแม่นยำของการประมวลผลเชิงตัวเลข: พัฒนาและใช้อัลกอริธึมและเทคนิคที่จัดการการดำเนินการจุดลอยตัวได้แม่นยำยิ่งขึ้น เพื่อลดข้อผิดพลาดในการคำนวณ
ความสามารถในการให้เหตุผลเชิงตรรกะและสามัญสำนึกที่ได้รับการปรับปรุง: ด้วยการฝึกอบรมที่เน้นเฉพาะการให้เหตุผลเชิงตรรกะและสามัญสำนึก ความสามารถของ AI ในด้านเหล่านี้ได้รับการปรับปรุง ทำให้สามารถเข้าใจและจัดการงานที่เกี่ยวข้องกับสามัญสำนึกได้ดียิ่งขึ้น
โดยรวมแล้ว ข้อบกพร่องที่ AI เปิดเผยในการจัดการปัญหาการเปรียบเทียบทางคณิตศาสตร์อย่างง่าย เตือนเราว่าเทคโนโลยี AI ยังอยู่ในขั้นตอนการพัฒนา และจำเป็นต้องปรับปรุงและปรับปรุงอย่างต่อเนื่อง ในอนาคต ด้วยการเพิ่มประสิทธิภาพข้อมูลการฝึกอบรม การปรับปรุงอัลกอริทึม และเพิ่มความสามารถในการให้เหตุผลเชิงตรรกะ AI จะมีความก้าวหน้ามากขึ้นในการจัดการปัญหาสามัญสำนึก