บรรณาธิการของ Downcodes ได้เรียนรู้ว่างานวิจัยล่าสุดจาก OpenAI แสดงให้เห็นว่าแม้เทคโนโลยี AI จะก้าวหน้าอย่างรวดเร็ว แต่ความแม่นยำของโมเดลภาษาที่ทันสมัยที่สุดในปัจจุบันในการตอบคำถามที่เป็นข้อเท็จจริงก็ยังคงน่ากังวล การศึกษานี้ใช้เกณฑ์มาตรฐาน SimpleQA ของ OpenAI ผลการทดสอบแสดงให้เห็นว่าแม้แต่โมเดลที่ดีที่สุดของ OpenAI ยังต่ำกว่าที่คาดไว้มาก ซึ่งกระตุ้นให้เกิดการตรวจสอบความสามารถในการรับความรู้ของโมเดล AI อีกครั้ง
การศึกษานี้ใช้การทดสอบเกณฑ์มาตรฐาน SimpleQA ของ OpenAI การทดสอบนี้มีคำถาม 4,326 ข้อ ครอบคลุมหลายสาขา เช่น วิทยาศาสตร์ การเมือง และศิลปะ แต่ละคำถามมีคำตอบที่ถูกต้องชัดเจน
หลังจากการตรวจสอบโดยผู้ตรวจสอบอิสระสองคน ผลลัพธ์แสดงให้เห็นว่าความแม่นยำของโมเดล o1-preview ที่ดีที่สุดของ OpenAI อยู่ที่เพียง 42.7% ในขณะที่ GPT-4o นั้นต่ำกว่าเล็กน้อยเพียง 38.2% เท่านั้น สำหรับ GPT-4o-mini ที่เล็กกว่านั้นมีความแม่นยำเพียง 8.6% เท่านั้น เมื่อเปรียบเทียบกันแล้ว โมเดล Claude ของ Anthropic ทำงานได้แย่ยิ่งกว่าเดิม โดยโคลด-3.5-ซอนเน็ตมีความแม่นยำเพียง 28.9%
หัวใจสำคัญของการวิจัยนี้อยู่ที่การออกแบบแบบทดสอบ ไม่เพียงแต่เพื่อทดสอบประสิทธิภาพของ AI เท่านั้น แต่ยังทำให้ทุกคนตระหนักถึงข้อจำกัดของโมเดล AI ในการแสวงหาความรู้อีกด้วย นักวิจัยเน้นย้ำว่าเมื่อผู้ใช้ใช้แบบจำลองเหล่านี้ พวกเขาควรปฏิบัติต่อแบบจำลองเหล่านี้เสมือนเครื่องมือในการประมวลผลข้อมูล แทนที่จะเป็นแหล่งความรู้ที่สมบูรณ์ เพื่อให้ได้คำตอบที่แม่นยำยิ่งขึ้น เป็นการดีที่สุดที่จะให้ข้อมูลที่เชื่อถือได้แก่ AI แทนที่จะอาศัยความรู้ที่มีอยู่ในตัวเพียงอย่างเดียว
เป็นที่น่าสังเกตว่าโมเดล AI มักจะมีการประเมินความสามารถในแง่ดีมากเกินไป นักวิจัยพบว่าเมื่อโมเดลเหล่านี้ถูกขอให้ให้คะแนนความเชื่อมั่นในคำตอบ มักจะให้คะแนนความแม่นยำที่สูงเกินจริง ในการทดสอบที่มีการตอบคำถามเดิมซ้ำๆ แม้ว่าแบบจำลองจะให้คำตอบเดียวกันหลายครั้ง แต่อัตราความสำเร็จที่แท้จริงก็ยังต่ำกว่าความแม่นยำที่ประเมินด้วยตนเอง ซึ่งสอดคล้องกับการวิพากษ์วิจารณ์จากภายนอกว่าโมเดลภาษามักจะให้คำตอบที่ไร้สาระแต่กลับดูมั่นใจ
นักวิจัยเชื่อว่าระบบ AI ในปัจจุบันมีช่องว่างที่ชัดเจนในด้านความถูกต้องตามข้อเท็จจริง และจำเป็นต้องได้รับการปรับปรุงอย่างเร่งด่วน พวกเขายังตั้งคำถามเปิดกว้างว่าประสิทธิภาพของ AI ในการตอบคำถามข้อเท็จจริงสั้นๆ ทำนายประสิทธิภาพในการประมวลผลการตอบสนองที่ซับซ้อนและยาวนานขึ้นหรือไม่ เพื่อที่จะสนับสนุนการพัฒนาโมเดลภาษาที่เชื่อถือได้มากขึ้น OpenAI จึงได้เผยแพร่ข้อมูลการวัดประสิทธิภาพ SimpleQA ไปยัง Github ต่อสาธารณะ
การวิจัยครั้งนี้เป็นการเตือนถึงความน่าเชื่อถือของโมเดล AI และชี้ให้เห็นทิศทางสำหรับการปรับปรุงในอนาคต เราจำเป็นต้องใช้เครื่องมือ AI อย่างระมัดระวังมากขึ้น และหวังว่าจะมีความก้าวหน้ามากขึ้นในด้านความแม่นยำตามข้อเท็จจริงของโมเดล AI ในอนาคต ข้อมูลเกณฑ์มาตรฐาน SimpleQA ที่เปิดเผยต่อสาธารณะของ OpenAI จะช่วยส่งเสริมการพัฒนาด้าน AI ทั้งหมด