علم محرر موقع Downcodes أن باحثين من جامعة ستانفورد وجامعة هونج كونج أصدروا مؤخرًا نتيجة بحثية مثيرة للقلق: عملاء الذكاء الاصطناعي الحاليون، مثل كلود، أكثر عرضة للهجمات المنبثقة من البشر. تظهر الأبحاث أن النوافذ المنبثقة البسيطة يمكن أن تقلل بشكل كبير من معدل إكمال المهام لوكلاء الذكاء الاصطناعي، الأمر الذي أثار مخاوف جدية بشأن أمان وموثوقية وكلاء الذكاء الاصطناعي، خاصة في سياق منحهم المزيد من القدرات لأداء المهام بشكل مستقل.
في الآونة الأخيرة، وجد باحثون من جامعة ستانفورد وجامعة هونج كونج أن عملاء الذكاء الاصطناعي الحاليين (مثل كلود) أكثر عرضة للتدخل من خلال النوافذ المنبثقة من البشر، بل إن أداءهم ينخفض بشكل ملحوظ عند مواجهة النوافذ المنبثقة البسيطة.
وفقًا للأبحاث، عندما يواجه AI Agent نوافذ منبثقة مصممة في بيئة تجريبية، يصل متوسط معدل نجاح الهجوم إلى 86%، وينخفض معدل نجاح المهمة بنسبة 47%. ويثير هذا الاكتشاف مخاوف جديدة بشأن سلامة عملاء الذكاء الاصطناعي، خاصة مع منحهم قدرة أكبر على أداء المهام بشكل مستقل.
في هذه الدراسة، صمم العلماء سلسلة من النوافذ المنبثقة المتعارضة لاختبار استجابة وكيل الذكاء الاصطناعي. تظهر الأبحاث أنه على الرغم من أن البشر يمكنهم التعرف على هذه النوافذ المنبثقة وتجاهلها، إلا أن عملاء الذكاء الاصطناعي غالبًا ما يتم إغراءهم بل وينقرون على هذه النوافذ المنبثقة الضارة، مما يمنعهم من إكمال مهامهم الأصلية. لا تؤثر هذه الظاهرة على أداء AI Agent فحسب، بل قد تؤدي أيضًا إلى مخاطر أمنية في تطبيقات العالم الحقيقي.
استخدم فريق البحث منصتي اختبار، OSWorld وVisualWebArena، لإدخال نوافذ منبثقة مصممة ومراقبة سلوك وكيل الذكاء الاصطناعي. ووجدوا أن جميع نماذج الذكاء الاصطناعي التي تم اختبارها كانت ضعيفة. ومن أجل تقييم فعالية الهجوم، سجل الباحثون معدل تكرار نقر العميل على النوافذ المنبثقة وإكمال مهمته. وأظهرت النتائج أنه في ظل ظروف الهجوم، كان معدل نجاح المهمة لمعظم عملاء الذكاء الاصطناعي أقل من 10 %.
واستكشفت الدراسة أيضًا تأثير تصميم النوافذ المنبثقة على معدلات نجاح الهجوم. وباستخدام عناصر لافتة للنظر وتعليمات محددة، وجد الباحثون زيادة كبيرة في معدلات نجاح الهجوم. وعلى الرغم من محاولتهم مقاومة الهجوم من خلال مطالبة وكيل الذكاء الاصطناعي بتجاهل النوافذ المنبثقة أو إضافة شعارات إعلانية، إلا أن النتائج لم تكن مثالية. وهذا يدل على أن آلية الدفاع الحالية لا تزال معرضة بشدة لعملاء الذكاء الاصطناعي.
تسلط استنتاجات الدراسة الضوء على الحاجة إلى آليات دفاع أكثر تقدمًا في مجال الأتمتة لتحسين مقاومة وكلاء الذكاء الاصطناعي لهجمات البرامج الضارة والخداع. ويوصي الباحثون بتعزيز أمان عملاء الذكاء الاصطناعي من خلال تعليمات أكثر تفصيلاً، وتحسين القدرة على تحديد المحتوى الضار، وإدخال الإشراف البشري.
ورق:
https://arxiv.org/abs/2411.02391
جيثب:
https://github.com/SALT-NLP/PopupAttack
نتائج هذا البحث لها أهمية تحذيرية مهمة في مجال أمن الذكاء الاصطناعي، مما يسلط الضوء على الحاجة الملحة لتعزيز أمن وكلاء الذكاء الاصطناعي. في المستقبل، يجب أن تركز المزيد من الأبحاث على قضايا القوة والأمن الخاصة بوكلاء الذكاء الاصطناعي لضمان موثوقيتها وأمانها في التطبيقات العملية. وبهذه الطريقة فقط يمكن استغلال إمكانات الذكاء الاصطناعي بشكل أفضل وتجنب المخاطر المحتملة.