مع التطور السريع لتكنولوجيا الذكاء الاصطناعي، يتم استخدام نماذج اللغات الكبيرة (LLM) بشكل متزايد في مختلف المجالات، وتحاول مراجعة النظراء الأكاديميين تدريجيًا تقديم LLM للمساعدة في المراجعة. ومع ذلك، فقد دقت دراسة حديثة أجرتها جامعة شنغهاي جياو تونغ ناقوس الخطر، مشيرة إلى أن هناك مخاطر جسيمة في تطبيق ماجستير إدارة الأعمال في المراجعة الأكاديمية، حيث أن موثوقيتها أقل بكثير من المتوقع، بل وربما يتم التلاعب بها بشكل ضار.
تعد مراجعة النظراء الأكاديمية حجر الزاوية في التقدم العلمي، ولكن مع ارتفاع عدد الطلبات المقدمة، يتعرض النظام لضغوط شديدة. ومن أجل التخفيف من هذه المشكلة، بدأ الناس في محاولة استخدام نماذج اللغة الكبيرة (LLM) للمساعدة في المراجعة.
ومع ذلك، كشفت دراسة جديدة عن مخاطر جسيمة في مراجعة LLM، مما يشير إلى أننا قد لا نكون مستعدين لاعتماد مراجعة LLM على نطاق واسع.
وجد فريق بحث من جامعة شنغهاي جياو تونغ من خلال التجارب أن المؤلفين يمكنهم التأثير على نتائج مراجعة ماجستير الحقوق من خلال تضمين محتوى تلاعبي دقيق في الأوراق. يمكن أن يكون هذا التلاعب واضحًا، مثل إضافة نص أبيض صغير غير محسوس في نهاية الورقة، وتوجيه LLM للتأكيد على نقاط القوة في الورقة والتقليل من نقاط الضعف.
تظهر التجارب أن هذا التلاعب الواضح يمكن أن يحسن بشكل كبير التقييمات المقدمة من LLM، وحتى جميع الأوراق يمكن أن تحصل على مراجعات إيجابية، مع زيادة متوسط التقييم من 5.34 إلى 7.99. والأمر الأكثر إثارة للقلق هو أن التطابق بين نتائج مراجعة LLM التي تم التلاعب بها ونتائج المراجعة البشرية قد انخفض بشكل كبير، مما يشير إلى أن موثوقيتها معرضة للخطر إلى حد كبير.
بالإضافة إلى ذلك، اكتشف البحث أيضًا شكلاً أكثر دقة من التلاعب: التلاعب الضمني. يمكن للمؤلفين الكشف بشكل استباقي عن العيوب البسيطة في أوراقهم لتوجيه LLM لتكرارها أثناء المراجعة.
كان حاملو شهادات الماجستير في القانون أكثر عرضة للتأثير بهذه الطريقة من المراجعين البشريين، حيث كانوا أكثر عرضة بنسبة 4.5 مرات لتكرار القيود المعلنة للمؤلف. تسمح هذه الممارسة للمؤلفين بالحصول على ميزة غير عادلة من خلال تسهيل الرد على تعليقات المراجعة أثناء مرحلة الدفاع.
كشف البحث أيضًا عن عيوب متأصلة في مراجعات LLM:
مشكلة الوهم: يُنشئ LLM تعليقات مراجعة سلسة حتى في حالة عدم وجود محتوى. على سبيل المثال، عندما يكون الإدخال عبارة عن ورقة فارغة، ستظل LLM تدعي أن "هذه الورقة تقترح طريقة جديدة." حتى لو تم توفير عنوان الورقة فقط، فمن المرجح أن تعطي LLM درجة مماثلة لتلك الخاصة بالورقة الكاملة.
تفضيل الأوراق الأطول: يميل نظام مراجعة LLM إلى إعطاء درجات أعلى للأوراق الأطول، مما يشير إلى تحيز محتمل يعتمد على طول الورقة.
تحيز المؤلف: في المراجعة الفردية، إذا كان المؤلف يأتي من مؤسسة معروفة أو باحث معروف، فإن نظام مراجعة LLM يميل أكثر إلى إعطاء تقييم إيجابي، مما قد يؤدي إلى تفاقم الظلم في عملية المراجعة.
لمزيد من التحقق من هذه المخاطر، أجرى الباحثون تجارب باستخدام LLMs مختلفة، بما في ذلك Llama-3.1-70B-Instruct وDeepSeek-V2.5 وQwen-2.5-72B-Instruct. تظهر النتائج التجريبية أن هذه LLMs معرضة لخطر التلاعب بها ضمنيًا وتواجه مشاكل هلوسة مماثلة. وجد الباحثون أن أداء LLM كان مرتبطًا بشكل إيجابي مع اتساقه عبر المراجعات البشرية، لكن النموذج الأقوى، GPT-4o، لم يكن محصنًا تمامًا ضد هذه المشكلات.
أجرى الباحثون عددًا كبيرًا من التجارب باستخدام بيانات المراجعة العامة من ICLR2024. أظهرت النتائج أن التلاعب الصريح يمكن أن يجعل آراء مراجعة LLM خاضعة للتحكم بشكل كامل تقريبًا من خلال المحتوى الذي تم التلاعب به، مع اتساق يصل إلى 90٪، ويؤدي إلى ردود فعل إيجابية لجميع الأوراق. بالإضافة إلى ذلك، فإن التلاعب بنسبة 5% من تعليقات المراجعة قد يتسبب في فقدان 12% من الأوراق البحثية لمكانتها في أعلى 30% من التصنيفات.
ويؤكد الباحثون أن LLM ليست حاليًا قوية بما يكفي لتحل محل المراجعين البشريين في المراجعة الأكاديمية. وأوصوا بتعليق استخدام LLMs لمراجعة النظراء حتى يتم فهم هذه المخاطر بشكل كامل ووضع ضمانات فعالة. وفي الوقت نفسه، يجب على المجلات ومنظمي المؤتمرات تقديم أدوات الكشف وإجراءات المساءلة لتحديد ومعالجة التلاعب الخبيث من قبل المؤلفين والحالات التي يستخدم فيها المراجعون ماجستير إدارة الأعمال ليحل محل الحكم البشري.
يعتقد الباحثون أنه يمكن استخدام LLM كأداة مساعدة لتزويد المراجعين بتعليقات ورؤى إضافية، لكنها لا يمكن أن تحل محل الحكم البشري. إنهم يدعون المجتمع الأكاديمي إلى مواصلة استكشاف طرق لجعل نظام المراجعة بمساعدة LLM أكثر قوة وأمانًا، وبالتالي تعظيم إمكانات LLM مع الحماية من المخاطر.
عنوان الورقة: https://arxiv.org/pdf/2412.01708
بشكل عام، تطرح هذه الدراسة تحديات خطيرة أمام تطبيق ماجستير في القانون في مراجعة النظراء الأكاديمية، وتذكرنا بأننا بحاجة إلى التعامل مع تطبيق ماجستير في القانون بحذر لتجنب إساءة استخدامه وضمان عدالة وحيادية المراجعة الأكاديمية. في المستقبل، هناك حاجة إلى مزيد من الأبحاث لتحسين متانة وأمن LLM حتى تتمكن من لعب دورها المساعد بشكل أفضل.