محرج! تم تجاوز نظام أمان الذكاء الاصطناعي الخاص بـ Meta بسهولة من خلال الهجوم "الفضائي".

الكاتب：Eve Cole وقت التحديث：2024-12-14 18:32:01

أصدرت Meta مؤخرًا Prompt-Guard-86M، وهو نموذج للتعلم الآلي مصمم للدفاع ضد هجمات الحقن السريع، ولكن سرعان ما تم اكتشاف أن النموذج نفسه يحتوي على ثغرات أمنية خطيرة. تتضمن هجمات حقن التلميحات حث نماذج لغوية كبيرة (LLMs) على انتهاك القيود الأمنية أو إنتاج سلوك غير لائق من خلال مدخلات مصممة بعناية. يهدف Prompt-Guard-86M إلى تصفية هذه المطالبات الضارة، ومع ذلك، وجد الباحثون أن المسافات البسيطة بين الأحرف وإزالة علامات الترقيم يمكن أن تتجاوز بسهولة آلية الدفاع الخاصة بالنموذج، مما يجعلها غير فعالة.

أطلقت Meta مؤخرًا نموذجًا للتعلم الآلي يسمى Prompt-Guard-86M، وهو مصمم لاكتشاف هجمات الحقن الفوري والرد عليها. يتضمن هذا النوع من الهجمات عادةً مدخلات خاصة تتسبب في تصرف نموذج اللغة الكبير (LLM) بشكل غير لائق أو التحايل على القيود الأمنية. ولكن من المثير للدهشة أن النظام الجديد نفسه يعرض نفسه أيضًا لخطر التعرض للهجوم.

ملاحظة لمصدر الصورة: تم إنشاء الصورة بواسطة الذكاء الاصطناعي، والصورة معتمدة من قبل مزود الخدمة Midjourney

تم إطلاق Prompt-Guard-86M بواسطة Meta مع نموذج الجيل Llama3.1 الخاص بها، وذلك بشكل أساسي لمساعدة المطورين على تصفية المطالبات التي قد تسبب مشاكل. تقوم نماذج اللغات الكبيرة عادةً بمعالجة كميات كبيرة من النصوص والبيانات، وإذا تركت دون تحديد، فقد تكرر المعلومات الخطيرة أو الحساسة بشكل تعسفي. ولذلك، قام المطورون ببناء "حواجز حماية" في النموذج لالتقاط المدخلات والمخرجات التي يمكن أن تسبب الضرر.

ومع ذلك، يبدو أن مستخدمي الذكاء الاصطناعي يرون أن تجاوز حواجز الحماية هذه يمثل تحديًا، وذلك باستخدام حقن التلميحات وكسر الحماية لجعل النماذج تتجاهل تعليمات السلامة الخاصة بها. أشار بعض الباحثين مؤخرًا إلى أن برنامج Meta's Prompt-Guard-86M ضعيف عند معالجة بعض المدخلات الخاصة. على سبيل المثال، عند كتابة "تجاهل التعليمات السابقة" مع وجود مسافة بين الحروف، فإن Prompt-Guard-86M سوف يتجاهل التعليمات السابقة بكل إخلاص.

تم هذا الاكتشاف من قبل صائد الثغرات الأمنية المسمى Aman Priyanshu، الذي اكتشف الثغرة الأمنية أثناء تحليل نماذج Meta ونماذج Microsoft القياسية. وقال بريانشو إن عملية الضبط الدقيق لـ Prompt-Guard-86M كان لها تأثير ضئيل للغاية على الحروف الإنجليزية الفردية، مما سمح له بتصميم هذا الهجوم. وقد شارك هذه النتيجة على GitHub، مشيرًا إلى أنه بمجرد تباعد الأحرف وإزالة علامات الترقيم، يمكن أن يفقد المصنف قدراته على الكشف.

كما وافق هايروم أندرسون، كبير مسؤولي التكنولوجيا في شركة Robust Intelligence، على ذلك، مشيرًا إلى أن معدل نجاح الهجوم بهذه الطريقة يصل إلى 100% تقريبًا. على الرغم من أن Prompt-Guard ليس سوى جزء من خط الدفاع، إلا أن الكشف عن هذه الثغرة الأمنية قد دق ناقوس الخطر بالنسبة للشركات عند استخدام الذكاء الاصطناعي. لم تستجب شركة Meta بعد، لكن المصادر تقول إنها تبحث بنشاط عن حل.

أبرز النقاط:

تم العثور على ثغرة أمنية في Meta's Prompt-Guard-86M وهو عرضة لهجمات الحقن الفوري.

ومن خلال إضافة مسافات بين الحروف، يمكن جعل النظام يتجاهل تعليمات الأمان، مع معدل نجاح للهجوم يصل إلى 100% تقريبًا.

⚠️ يذكر هذا الحادث الشركات بضرورة توخي الحذر عند استخدام تقنية الذكاء الاصطناعي وأن المشكلات الأمنية لا تزال بحاجة إلى أخذها في الاعتبار.

كشفت ثغرة Prompt-Guard-86M عن التحديات الهائلة التي تواجه مجال أمن الذكاء الاصطناعي وشددت مرة أخرى على ضرورة إعطاء الأولوية للأمن عند تطوير أنظمة الذكاء الاصطناعي ونشرها. وفي المستقبل، ستكون الآليات الأمنية الأكثر قوة وموثوقية هي المفتاح لتطوير تكنولوجيا الذكاء الاصطناعي.