أجرى فريق أمان الذكاء الاصطناعي في Microsoft اختبارًا أمنيًا لمدة عامين على أكثر من 100 منتج من منتجات الذكاء الاصطناعي لتحديد نقاط الضعف والمخاطر الأخلاقية. لقد قلبت نتائج الاختبار بعض التصورات التقليدية حول أمن الذكاء الاصطناعي وشددت على الدور الذي لا يمكن الاستغناء عنه للخبرة البشرية في مجال أمن الذكاء الاصطناعي. وقد وجدت الاختبارات أن الهجمات الأكثر فعالية ليست دائمًا معقدة من الناحية الفنية، بل هي أساليب "هندسة سريعة" بسيطة، مثل إخفاء التعليمات الضارة في نص الصورة لتجاوز آليات الأمان. وهذا يدل على أن أمن الذكاء الاصطناعي يحتاج إلى أن يأخذ في الاعتبار الوسائل التقنية والاعتبارات الإنسانية.
منذ عام 2021، اختبر فريق أمان الذكاء الاصطناعي في Microsoft أكثر من 100 منتج من منتجات الذكاء الاصطناعي للبحث عن نقاط الضعف والمشكلات الأخلاقية. تتحدى النتائج التي توصلوا إليها بعض الافتراضات الشائعة حول سلامة الذكاء الاصطناعي وتسلط الضوء على الأهمية المستمرة للخبرة البشرية.
لقد تبين أن الهجمات الأكثر فعالية ليست دائمًا الأكثر تعقيدًا. تشير دراسة وردت في تقرير مايكروسوفت، والتي قارنت أبحاث أمان الذكاء الاصطناعي بالممارسات الواقعية، إلى أن "المتسللين الحقيقيين لا يحسبون التدرجات، بل يستخدمون الهندسة السريعة". في أحد الاختبارات، نجح الفريق في تجاوز ميزات الأمان الخاصة بمولد الصور ببساطة عن طريق إخفاء التعليمات الضارة داخل نص الصورة - دون الحاجة إلى عمليات حسابية معقدة.
اللمسة الإنسانية لا تزال مهمة
بينما قامت Microsoft بتطوير PyRIT، وهي أداة مفتوحة المصدر يمكنها أتمتة اختبار الأمان، يؤكد الفريق على أنه لا يمكن استبدال الحكم البشري. أصبح هذا واضحًا بشكل خاص عندما اختبروا كيفية تعامل برنامج الدردشة الآلي مع المواقف الحساسة، مثل التحدث إلى شخص يعاني من اضطراب عاطفي. يتطلب تقييم هذه السيناريوهات خبرة نفسية وفهمًا عميقًا للتأثيرات المحتملة على الصحة العقلية.
اعتمد الفريق أيضًا على البصيرة البشرية عند التحقيق في تحيز الذكاء الاصطناعي. في أحد الأمثلة، قاموا بفحص التحيز الجنسي في مولد الصور عن طريق إنشاء صور لمهن مختلفة (دون تحديد الجنس).
ظهور تحديات أمنية جديدة
إن دمج الذكاء الاصطناعي في التطبيقات اليومية يخلق نقاط ضعف جديدة. وفي أحد الاختبارات، نجح الفريق في التلاعب بنموذج اللغة لإنشاء سيناريوهات احتيال مقنعة. عند دمجها مع تقنية تحويل النص إلى كلام، يؤدي ذلك إلى إنشاء نظام يمكنه التفاعل مع الأشخاص بطرق واقعية بشكل خطير.
ولا تقتصر المخاطر على المشاكل الخاصة بالذكاء الاصطناعي. اكتشف الفريق ثغرة أمنية قديمة (SSRF) في أداة معالجة فيديو تعمل بالذكاء الاصطناعي، مما يدل على أن هذه الأنظمة تواجه تحديات أمنية قديمة وجديدة.
الاحتياجات الأمنية المستمرة
تركز الدراسة بشكل خاص على مخاطر "الذكاء الاصطناعي المسؤول"، أي المواقف التي يمكن أن تولد فيها أنظمة الذكاء الاصطناعي محتوى ضارًا أو مشكوكًا فيه أخلاقيًا. يصعب معالجة هذه الأسئلة بشكل خاص لأنها غالبًا ما تعتمد بشكل كبير على السياق والتفسير الشخصي.
وجد فريق Microsoft أن التعرض غير المقصود للمستخدمين العاديين لمحتوى به مشكلات كان أكثر إثارة للقلق من الهجمات المتعمدة لأنه يشير إلى أن الإجراءات الأمنية لم تكن تعمل كما هو متوقع أثناء الاستخدام العادي.
توضح النتائج أن سلامة الذكاء الاصطناعي ليست حلاً لمرة واحدة. توصي Microsoft بمواصلة البحث عن الثغرات الأمنية وإصلاحها، متبوعة بإجراء المزيد من الاختبارات. واقترحوا أن هذا سيحتاج إلى دعم من خلال اللوائح والحوافز المالية، مما يجعل الهجمات الناجحة أكثر تكلفة.
ويقول فريق البحث إنه لا تزال هناك العديد من الأسئلة الرئيسية التي تحتاج إلى إجابة: كيف يمكننا التعرف على قدرات الذكاء الاصطناعي التي يحتمل أن تكون خطيرة، مثل الإقناع والخداع، وكيف يمكننا تكييف اختبارات السلامة مع اللغات والثقافات المختلفة؟ حصة هذا بطريقة موحدة أساليبهم ونتائجهم؟
بشكل عام، تؤكد أبحاث Microsoft على أهمية التحسين المستمر لإجراءات أمان الذكاء الاصطناعي، وهو يتطلب مزيجًا من الوسائل التقنية والرعاية الإنسانية للتعامل بفعالية مع تحديات أمان الذكاء الاصطناعي وتعزيز التطوير المسؤول لتكنولوجيا الذكاء الاصطناعي.