في الآونة الأخيرة ، قامت دراسة مشتركة أجراها جامعة ميونيخ ومركز ميونيخ للتعلم الآلي وأبحاث Adobe بتقييم أداء 12 من طرازات لغة AI بما في ذلك GPT-4 و Gemini و Llama في مهام التفكير المفاهيمي الطويل. نتائج الدراسة مثيرة للقلق: على الرغم من القدرة على معالجة النص الطويل للغاية ، فإن هذه النماذج لها عيوب كبيرة في التفكير المنطقي المعقد ، وأدائها له انخفاض يشبه الجرف في النصوص الطويلة. من خلال نظام القياس Nolima ، تجنب فريق البحث بذكاء تكرار الكلمات الرئيسية ، ويكشف عن هشاشة النموذج في الارتباطات المفاهيمية ، وتحليل أعماق هذه الظاهرة.
أظهرت الأبحاث المشتركة التي أصدرتها جامعة ميونيخ ، ومركز ميونيخ للتعلم الآلي وأبحاث Adobe مؤخرًا أن 12 من طرازات لغة الذكاء الاصطناعى بما في ذلك GPT-4O و Gemini1.5Pro و Llama-3.3-70B تواجه نتائج واضحة في مهام التفكير المفاهيمية النصية الطويلة. تسوس الأداء. على الرغم من أن هذه النماذج تدعم معالجة سياق ما لا يقل عن 128000 علامة ، إلا أن قدرات الارتباط المنطقي العميق لا تزال لديها قيود أساسية.
يكشف نظام اختبار NOLIMA (بدون مطابقة للنص) الذي طوره فريق البحث عن هشاشة نماذج الذكاء الاصطناعى في الاتصال المفاهيمي عن طريق تجنب تصميم تكرار الكلمات الرئيسية عمداً. على سبيل المثال ، عندما يصف النص "يوكي يعيش بجوار Semperoper" ، يحتاج النموذج إلى فهم الحس السليم بأن "Semperoper يقع في Dresden" قبل الإجابة "الذي كان على Dresden".
تظهر نتائج الاختبار:
1. ** ينخفض أداء النص الطويل بطريقة تشبه الجرف **: عندما يتوسع السياق من 2000 إلى 8000 علامة ، انخفض أداء معظم النماذج بشكل كبير ؛ ما هو عندما نص قصير.
2. ** تكشف آلية الانتباه عن أوجه القصور **: من الصعب تحديد موقع النموذج بدقة في المعلومات ذات الصلة في النصوص الطويلة ، وعندما تظهر الإجابات الرئيسية في النصف الثاني من النص ، يتناقص معدل الدقة.
3. ** لا يزال نموذج الاستدلال المخصص لديه عيوب **: أنظمة O1 و O3-MINI و DEEPSEEK-R1 المصممة لاستدلال معقد سجلت أقل من 50 ٪ في اختبار NOLIMA-HARD 32K ، على الرغم من أنه يقع في وقت قصير تقريبًا نص مثالي.
تشير الأبحاث إلى أن الاعتماد المفرط على النموذج على التفكير بالقصور الذاتي في "مطابقة الكلمات" هو المشكلة الأساسية. عندما يستبعد الاختبار عن عمد المفردات نفسها ، حتى إذا تم استخدام تقنية سلسلة التفكير (COT) ، فإن تحسين إمكانية معالجة النص الطويلة لـ LLAMA-3.3-70B لا يزال محدودًا. الأمر الأكثر جدية هو أنه إذا كان هناك تداخل مطابق للكلمة في السياق غير ذي صلة ، فسيؤدي ذلك إلى تكثيف سوء تقدير النموذج.
"هذا يكشف عن التناقض الأساسي للذكور الحالية - من السهل توسيع نافذة السياق ، ولكن من الصعب تحسين قدرات التفكير العميق." أخذ GPT-4O كمثال ، على الرغم من أنه يصل إلى طول السياق الفعال البالغ 8000 علامة ، إلا أنه لا يزال ضعيفًا في دمج مفاهيم الفقرة المتقاطعة. مع تمديد النص ، فإن آلية انتباه النموذج "خارج التركيز" تدريجياً ، مما يجعل من الصعب الحفاظ على سلسلة منطقية متماسكة.
يبدو هذا البحث إنذارًا لتطوير الذكاء الاصطناعى: ببساطة زيادة طول المعالجة لا يمكن أن يخترق عنق الزجاجة المنطق. تحتاج الصناعة إلى إعادة النظر في تصميم الهندسة المعمارية النموذجية وتطوير آليات استخراج المعلومات وآليات الارتباط أكثر كفاءة. في المستقبل ، فإن كيفية جعل الذكاء الاصطناعى فهم النص حقًا بدلاً من الاعتماد على مطابقة الأنماط ستصبح المفتاح لاختراق حدود معالجة النص الطويلة.
تؤكد هذه الدراسة على قيود نماذج الذكاء الاصطناعى الحالية في التفكير في النص الطويل ، وتوفر مرجعًا مهمًا لاتجاه التحسين المستقبلي لنماذج الذكاء الاصطناعى. لا يمكن لزيادة حجم نافذة السياق حل المشكلة.