في الآونة الأخيرة، قام المعهد النمساوي للعلوم المعقدة (CSH) بتقييم المعرفة التاريخية لثلاثة نماذج لغوية واسعة النطاق (LLMs)، وهي GPT-4، وLlama، وGemini، وكانت النتائج مفاجئة. واستخدم فريق البحث أداة اختبار مرجعية تسمى "Hist-LLM" لاختبار دقة النموذج في الإجابة على الأسئلة التاريخية بناءً على قاعدة البيانات التاريخية العالمية Seshat. تم الإعلان عن نتائج البحث في مؤتمر NeurIPS للذكاء الاصطناعي، وقد أثارت النتائج تفكيرًا عميقًا لدى الأشخاص حول القدرات التطبيقية لماجستير القانون في المجالات المعقدة.
ومن أجل تقييم أداء هذه النماذج على المعرفة التاريخية، قام الباحثون بتطوير أداة مرجعية تسمى "Hist-LLM". تعتمد هذه الأداة على قاعدة البيانات التاريخية العالمية Seshat وهي مصممة للتحقق من دقة إجابات الذكاء الاصطناعي على الأسئلة التاريخية. تم الإعلان عن نتائج البحث في مؤتمر الذكاء الاصطناعي المعروف NeurIPS. وأظهرت البيانات أن دقة GPT-4Turbo الأفضل أداءً كانت 46% فقط. توضح هذه النتيجة أن الأداء أفضل قليلاً من التخمين العشوائي.
وقالت ماريا ديل ريو-شانونا، الأستاذة المساعدة في علوم الكمبيوتر في جامعة كوليدج لندن: "على الرغم من أن النماذج اللغوية الكبيرة مثيرة للإعجاب، إلا أن عمق فهمها للمعرفة التاريخية عالية المستوى ليس كافيًا. فهي جيدة في التعامل مع الحقائق البسيطة، ولكنها تعاني من صعوبة في التعامل مع الحقائق البسيطة". على سبيل المثال، عندما سُئل عما إذا كان الدرع الحجمي موجودًا في مصر القديمة في وقت محدد، أجاب GPT-4Turbo بشكل غير صحيح بـ "نعم"، في حين أن هذه التكنولوجيا في الواقع لم تظهر إلا قبل 1500 عام. بالإضافة إلى ذلك، عندما سأل الباحثون عما إذا كان لدى مصر القديمة جيش نظامي محترف، أجاب GPT-4 أيضًا بشكل غير صحيح بـ "نعم" بينما كانت الإجابة الفعلية لا.
وكشفت الدراسة أيضًا أن أداء النموذج كان ضعيفًا في مناطق معينة، مثل أفريقيا جنوب الصحراء الكبرى، مما يشير إلى أن بيانات التدريب الخاصة به قد تكون متحيزة. وأشار قائد الدراسة بيتر تورشين إلى أن هذه النتائج تعكس أنه في بعض المناطق، لا يزال حاملو الماجستير في القانون غير قادرين على استبدال البشر.
تسليط الضوء على:
- كان أداء GPT-4Turbo ضعيفًا في امتحان التاريخ المتقدم بدقة بلغت 46% فقط.
- تظهر الأبحاث أن النماذج اللغوية الكبيرة لا تزال غير كافية في فهم المعرفة التاريخية المعقدة.
- يأمل فريق البحث في تحسين إمكانية تطبيق النموذج في البحث التاريخي من خلال تحسين أدوات الاختبار.
تذكرنا نتائج هذه الدراسة أنه على الرغم من أن النماذج اللغوية واسعة النطاق قد حققت تقدمًا كبيرًا في العديد من الجوانب، إلا أنها لا تزال تعاني من قيود عند التعامل مع المشكلات المعقدة التي تتطلب فهمًا عميقًا وتحليلاً دقيقًا. تحتاج الأبحاث المستقبلية إلى التركيز على كيفية تحسين بيانات التدريب والخوارزميات الخاصة بالنموذج لتعزيز قدراته التطبيقية في مختلف المجالات وتحقيق الذكاء الاصطناعي العام الحقيقي في نهاية المطاف.