การวิจัยล่าสุด: โมเดล AI ทำงานได้ไม่ดีเมื่อตอบคำถามจริงและความแม่นยำของ GPT -4O เพียง 38.2% - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-15 12:16:01

ด้วยการพัฒนาอย่างรวดเร็วของเทคโนโลยีปัญญาประดิษฐ์แบบจำลองภาษาจึงมีการใช้กันอย่างแพร่หลายมากขึ้นเรื่อย ๆ ในหลายสาขา อย่างไรก็ตามการศึกษา OpenAI ใหม่เปิดเผยว่าแบบจำลองเหล่านี้มีความคาดหวังสั้น ๆ เมื่อตอบคำถามที่เป็นข้อเท็จจริงทำให้เกิดการคิดใหม่เกี่ยวกับความสามารถของ AI ในการรับความรู้

การศึกษาล่าสุดโดย OpenAI แสดงให้เห็นว่าแม้จะมีการพัฒนาอย่างรวดเร็วของเทคโนโลยีปัญญาประดิษฐ์ แต่โมเดลภาษาที่ทันสมัยที่สุดในปัจจุบันมีอัตราความสำเร็จที่ต่ำกว่าในการตอบคำถามจริง

การศึกษานำการทดสอบมาตรฐาน Simpleqa ของ OpenAI ของ OpenAI ซึ่งมีพื้นที่ 4,326 แห่งครอบคลุมหลายสาขาเช่นวิทยาศาสตร์การเมืองและศิลปะและคำถามแต่ละข้อมีคำตอบที่ชัดเจนและถูกต้อง

หลังจากการตรวจสอบโดยผู้ตรวจสอบอิสระสองคนผลลัพธ์แสดงให้เห็นว่าอัตราความแม่นยำของ O1-Preview ซึ่งเป็นรูปแบบที่ดีที่สุดของ OpenAI เพียง 42.7%ในขณะที่ GPT-4O ต่ำกว่าเล็กน้อยเพียง 38.2% สำหรับ GPT-4O-MINI ที่เล็กกว่าอัตราความแม่นยำแม้เพียง 8.6% ในทางตรงกันข้ามโมเดล Claude ของมานุษยวิทยาทำงานได้แย่ลงด้วยอัตราความแม่นยำของ Claude-3.5-Sonnet อยู่ที่เพียง 28.9%

กุญแจสำคัญในการศึกษานี้คือการออกแบบการทดสอบไม่เพียง แต่จะทดสอบประสิทธิภาพของ AI แต่ยังทำให้ทุกคนตระหนักถึงข้อ จำกัด ของแบบจำลอง AI ในแง่ของการได้รับความรู้ นักวิจัยเน้นว่าเมื่อใช้แบบจำลองเหล่านี้ผู้ใช้ควรมองว่าเป็นเครื่องมือในการประมวลผลข้อมูลแทนที่จะพึ่งพาแหล่งความรู้ทั้งหมด เพื่อให้ได้คำตอบที่แม่นยำยิ่งขึ้นเป็นการดีที่สุดที่จะให้ข้อมูลที่เชื่อถือได้สำหรับ AI แทนที่จะพึ่งพาความรู้ในตัวเท่านั้น

เป็นที่น่าสังเกตว่าแบบจำลอง AI มักจะประเมินความสามารถของตนเอง นักวิจัยพบว่าเมื่อแบบจำลองเหล่านี้ถูกขอให้ทำคะแนนความมั่นใจในการตอบสนองของพวกเขาพวกเขามักจะให้คะแนนความแม่นยำที่เกินจริง ในการทดสอบที่ตอบคำถามเดียวกันซ้ำ ๆ แม้ว่าแบบจำลองจะให้คำตอบเดียวกันหลายครั้งอัตราความสำเร็จที่แท้จริงของพวกเขายังคงต่ำกว่าความแม่นยำของการประเมินตนเอง สิ่งนี้สอดคล้องกับการวิพากษ์วิจารณ์ของโลกภายนอกซึ่งมักจะสร้างคำตอบที่ไร้สาระให้กับแบบจำลองภาษา แต่ดูเหมือนมั่นใจ

นักวิจัยเชื่อว่ามีช่องว่างที่ชัดเจนในความถูกต้องจริงของระบบ AI ปัจจุบันและต้องการการปรับปรุงอย่างเร่งด่วน ในเวลาเดียวกันพวกเขายังถามคำถามเปิด: การปฏิบัติงานของ AI ในการตอบคำถามจริงสั้น ๆ สามารถทำนายได้ว่ามันทำงานอย่างไรเมื่อจัดการกับคำตอบที่ยาวและซับซ้อนมากขึ้นหรือไม่ เพื่อสนับสนุนการพัฒนาแบบจำลองภาษาที่เชื่อถือได้มากขึ้น OpenAI ได้เผยแพร่ข้อมูลเกี่ยวกับมาตรฐาน SimpleQa ต่อสาธารณะใน GitHub

ประเด็นสำคัญ:

การวิจัย OpenAI แสดงให้เห็นว่าแบบจำลองภาษาที่ทันสมัยที่สุดมีอัตราความสำเร็จต่ำเมื่อตอบคำถามจริงโดยมีอัตราความสำเร็จสูงสุดเพียง 42.7%

โมเดล AI เหล่านี้มักจะประเมินค่าความสามารถและคะแนนความมั่นใจของพวกเขาโดยทั่วไป

OpenAI ได้เปิดเผยข้อมูลมาตรฐาน Simpleqa เพื่อช่วยในการวิจัยแบบจำลองภาษาที่เชื่อถือได้มากขึ้น

การศึกษาครั้งนี้เตือนเราว่าแม้จะมีความคืบหน้าอย่างมีนัยสำคัญในเทคโนโลยี AI แต่ข้อ จำกัด ของมันก็ต้องได้รับการปฏิบัติด้วยความระมัดระวังในการใช้งานจริงและยังคงส่งเสริมการปรับปรุงทางเทคโนโลยี