เมื่อเร็ว ๆ นี้การศึกษาร่วมกันที่จัดทำโดยมหาวิทยาลัยมิวนิคศูนย์การเรียนรู้ของมิวนิคและการวิจัย Adobe ประเมินประสิทธิภาพของรูปแบบภาษา AI 12 อันดับแรกรวมถึง GPT-4, Gemini และ Llama ในงานการใช้เหตุผลแบบข้อความยาว ผลการศึกษาที่น่าตกใจ: แม้จะมีความสามารถในการประมวลผลข้อความยาวเป็นพิเศษ แต่โมเดลเหล่านี้มีข้อบกพร่องที่สำคัญในการใช้เหตุผลเชิงตรรกะที่ซับซ้อนและประสิทธิภาพของพวกเขาก็ลดลงเหมือนหน้าผาในข้อความยาว ผ่านระบบการเปรียบเทียบ Nolima ทีมวิจัยหลีกเลี่ยงการทำซ้ำคำหลักอย่างชาญฉลาดเผยให้เห็นความเปราะบางของแบบจำลองในการเชื่อมโยงแนวคิดและวิเคราะห์สาเหตุของปรากฏการณ์นี้อย่างลึกซึ้ง
การวิจัยร่วมกันที่เปิดตัวโดยมหาวิทยาลัยมิวนิคศูนย์การเรียนรู้ของมิวนิคและการวิจัย Adobe เมื่อเร็ว ๆ นี้แสดงให้เห็นว่ารูปแบบภาษา AI สูงสุด 12 แบบรวมถึง GPT-4O, Gemini1.5Pro และ Llama-3.3-70B กำลังเผชิญกับผลลัพธ์ที่ชัดเจน การสลายตัวของประสิทธิภาพ แม้ว่าแบบจำลองเหล่านี้จะสนับสนุนการประมวลผลบริบทอย่างน้อย 128,000 เครื่องหมาย แต่ความสามารถในการสหสัมพันธ์เชิงตรรกะของพวกเขายังคงมีข้อ จำกัด พื้นฐาน
ระบบทดสอบมาตรฐาน Nolima (ไม่มีการจับคู่ข้อความ) ที่พัฒนาโดยทีมวิจัยเผยให้เห็นความเปราะบางของโมเดล AI ในการเชื่อมต่อเชิงแนวคิดโดยการหลีกเลี่ยงการออกแบบการทำซ้ำคำหลัก ตัวอย่างเช่นเมื่อข้อความอธิบายว่า "Yuki อาศัยอยู่ถัดจาก Semperoper" แบบจำลองจำเป็นต้องเข้าใจสามัญสำนึกที่ "Semperoper ตั้งอยู่ใน Dresden" ก่อนที่จะตอบ "ผู้ที่เคยไปเดรสเดน"
ผลการทดสอบแสดง:
1. ** ประสิทธิภาพของข้อความยาวลดลงในลักษณะที่เหมือนหน้าผา **: เมื่อบริบทขยายจาก 2,000 ถึง 8,000 คะแนนประสิทธิภาพของโมเดลส่วนใหญ่ได้ลดลงอย่างมีนัยสำคัญ; มันคืออะไรเมื่อข้อความสั้น ๆ
2. ** กลไกความสนใจเปิดเผยข้อบกพร่อง **: โมเดลนั้นยากที่จะค้นหาข้อมูลที่เกี่ยวข้องอย่างถูกต้องในข้อความยาวและเมื่อคำตอบที่สำคัญปรากฏในช่วงครึ่งหลังของข้อความอัตราความแม่นยำจะลดลงอีก
3. ** รูปแบบการอนุมานเฉพาะที่ยังคงมีข้อบกพร่อง **: ระบบ O1, O3-MINI และ DEEPSEEK-R1 ที่ออกแบบมาสำหรับการอนุมานที่ซับซ้อนน้อยกว่า 50% ในการทดสอบ Nolima-Hard 32K-label แม้ว่ามันจะสั้นเกือบสั้น ข้อความสมบูรณ์แบบ
การวิจัยชี้ให้เห็นว่าแบบจำลองการพึ่งพาการคิดแบบเฉื่อยของ "การจับคู่คำ" เป็นปัญหาหลัก เมื่อการทดสอบโดยเจตนาไม่รวมคำศัพท์เดียวกันแม้ว่าจะใช้เทคโนโลยีการกระตุ้น (COT) การพัฒนาความสามารถในการประมวลผลข้อความที่ยาวนานของ LLAMA-3.3-70B ยังคงมีข้อ จำกัด สิ่งที่ร้ายแรงกว่าคือหากมีการรบกวนการจับคู่คำในบริบทที่ไม่เกี่ยวข้องมันจะเพิ่มความผิดพลาดของแบบจำลอง
"สิ่งนี้แสดงให้เห็นถึงความขัดแย้งพื้นฐานของ AI ในปัจจุบัน - เป็นเรื่องง่ายที่จะขยายหน้าต่างบริบท แต่เป็นการยากที่จะปรับปรุงความสามารถในการใช้เหตุผลอย่างลึกซึ้ง" นักวิจัยเน้น การใช้ GPT-4O เป็นตัวอย่างแม้ว่าจะถึงความยาวบริบทที่มีประสิทธิภาพ 8,000 คะแนน แต่ก็ยังอ่อนแอในการรวมแนวคิดข้ามย่อหน้า เมื่อข้อความขยายออกไปกลไกความสนใจของแบบจำลองจะค่อยๆ "ออกจากโฟกัส" ทำให้ยากที่จะรักษาห่วงโซ่ตรรกะที่สอดคล้องกัน
การวิจัยนี้ฟังเสียงเตือนสำหรับการพัฒนาของ AI: เพียงแค่การเพิ่มความยาวการประมวลผลไม่สามารถผ่านคอขวดที่มีเหตุผลได้ อุตสาหกรรมจำเป็นต้องตรวจสอบการออกแบบสถาปัตยกรรมแบบจำลองอีกครั้งและพัฒนาการสกัดข้อมูลที่มีประสิทธิภาพมากขึ้นและกลไกการเชื่อมโยง ในอนาคตวิธีทำให้ AI เข้าใจข้อความอย่างแท้จริงแทนที่จะพึ่งพาการจับคู่รูปแบบจะกลายเป็นกุญแจสำคัญในการทำลายขีด จำกัด ของการประมวลผลข้อความที่ยาวนาน
การศึกษาครั้งนี้เน้นถึงข้อ จำกัด ของแบบจำลอง AI ปัจจุบันในการให้เหตุผลข้อความยาวและให้การอ้างอิงที่สำคัญสำหรับทิศทางการปรับปรุงในอนาคตของแบบจำลอง AI เพียงแค่เพิ่มขนาดของหน้าต่างบริบทไม่สามารถแก้ปัญหาได้