في الآونة الأخيرة ، نشر الباحثون في جامعة ستانفورد وجامعة هونغ كونغ ورقة كشفت عن ثغرة أمنية كبيرة في وكلاء الذكاء الاصطناعى الحاليين مثل كلود: فهي معرضة للغاية للهجمات المنبثقة. لقد وجدت الأبحاث أن نافذة منبثقة بسيطة يمكن أن تقلل بشكل كبير من معدل إكمال المهمة لعامل الذكاء الاصطناعي ، وحتى يتسبب في فشل المهمة تمامًا. وقد أثار ذلك مخاوف بشأن القضايا الأمنية في التطبيقات العملية لوكلاء الذكاء الاصطناعى ، خاصة عندما يتم منحهم المزيد من الحكم الذاتي.
في الآونة الأخيرة ، وجد الباحثون في جامعة ستانفورد وجامعة هونغ كونغ أن وكلاء الذكاء الاصطناعى الحاليين (مثل كلود) أكثر عرضة للنوافذ المنبثقة من البشر ، وحتى أدائهم انخفض بشكل كبير عند مواجهة النوافذ المنبثقة البسيطة.
وفقًا للبحث ، عندما يواجه وكيل الذكاء الاصطناعي نافذة منبثقة مصممة في بيئة تجريبية ، يصل متوسط معدل نجاح الهجوم إلى 86 ٪ ، ويقلل من معدل نجاح المهمة بنسبة 47 ٪. أثار هذا الاكتشاف مخاوف جديدة بشأن أمان وكيل الذكاء الاصطناعي ، خاصة عندما يتم منحهم المزيد من القدرة على أداء المهام بشكل مستقل.
في هذه الدراسة ، صمم العلماء سلسلة من النوافذ المنبثقة العدائية لاختبار استجابة عامل الذكاء الاصطناعي. تشير الأبحاث إلى أنه على الرغم من أن البشر يمكنهم تحديد وتجاهل هذه المنبثقة ، إلا أن عوامل الذكاء الاصطناعى غالباً ما يتم إغراءها حتى على النقر على هذه النوافذ المنبثقة الخبيثة ، مما يتسبب في فشلهم في إكمال مهامهم الأصلية. لا تؤثر هذه الظاهرة على أداء وكيل الذكاء الاصطناعي فحسب ، بل قد تؤثر أيضًا على مخاطر السلامة في تطبيقات الحياة الواقعية.
استخدم فريق البحث منصتي الاختبار ، OSWorld و VisualWebarena ، حقن النوافذ المنبثقة المصممة ولاحظ سلوك عميل الذكاء الاصطناعي. وجدوا أن جميع نماذج الذكاء الاصطناعى المشاركة في الاختبار كانت ضعيفة. لتقييم تأثير الهجوم ، سجل الباحثون تواتر النقر فوق النقر فوق "النقر فوق النقر فوق" وإنجاز مهمته.
تستكشف الدراسة أيضًا تأثير تصميم النوافذ المنبثقة على معدل نجاح الهجوم. باستخدام عناصر مقنعة وتعليمات محددة ، وجد الباحثون زيادة كبيرة في معدلات نجاح الهجوم. على الرغم من أنهم حاولوا مقاومة الهجوم من خلال دفع وكيل الذكاء الاصطناعى لتجاهل النوافذ المنبثقة أو إضافة شعارات إعلانية ، فإن النتائج لم تكن مثالية. هذا يدل على أن آلية الدفاع الحالية لا تزال هشة للغاية لعامل الذكاء الاصطناعي.
تبرز استنتاجات الدراسة الحاجة إلى آليات دفاع أكثر تقدماً في مجال الأتمتة لتحسين مرونة وكلاء الذكاء الاصطناعى ضد البرامج الضارة والهجمات الخادعة. يوصي الباحثون بتعزيز أمان وكلاء الذكاء الاصطناعي من خلال تعليمات أكثر تفصيلاً ، وتحسين القدرة على تحديد المحتوى الضار ، وإدخال الإشراف البشري.
ورق:
https://arxiv.org/abs/2411.02391
جيثب:
https://github.com/salt-nlp/popupattack
النقاط الرئيسية:
معدل نجاح هجوم AI Agent عند مواجهة النوافذ المنبثقة يصل إلى 86 ٪ ، وهو أقل من معدل البشر.
لقد وجدت الأبحاث أن تدابير الدفاع الحالية غير فعالة تقريبًا بالنسبة لوكيل الذكاء الاصطناعى ويجب تحسينه بشكل عاجل.
يقترح البحث اقتراحات دفاعية مثل تحسين قدرة الوكلاء على تحديد المحتوى الضار والإشراف على الإنسان.
تشكل نتائج البحث تحديات شديدة لأمن عميل الذكاء الاصطناعى وتشير أيضًا إلى اتجاه أبحاث أمن الذكاء الاصطناعى في المستقبل ، أي أنه من الضروري تطوير آليات دفاع أكثر فعالية لحماية وكيل الذكاء الاصطناعى من الهجمات مثل المنبثقة الخبيثة وضمان أنه يعمل بأمان وموثوق. يجب أن تركز أبحاث المتابعة على كيفية تحسين قدرة وكيل الذكاء الاصطناعي على تحديد المحتوى الضار وكيفية الجمع بين الإشراف اليدوي بشكل فعال.