تناقش هذه المقالة نتائج اختبار نظام الحماية الأمنية Claude 3.5 من AI. اختبر الباحثون فعالية آلية السلامة الجديدة ، مصنف اللياقة البدنية ، من خلال التحدي المفتوح لمدة ستة أيام. حاول المشاركون تجاوز جميع تدابير الحماية الأمنية لـ Claude 3.5 وأخيراً اخترقوا جميع مستويات الأمن الثمانية ، مما أدى إلى مناقشات متعمقة حول حماية أمن الذكاء الاصطناعي. على الرغم من أن Challenger نجح في تحقيق تقدم ، لم يتم اكتشاف "طريقة Jailbreak" المشتركة ، مما يدل على أنه لا تزال هناك تحديات في حماية أمن الذكاء الاصطناعي ، لكنها غير قابلة للكسر تمامًا.
في ستة أيام فقط ، نجح المشاركون في تجاوز جميع تدابير حماية الأمن في نموذج الذكاء الاصطناعي (AI) ، وهو اختراق ، وهو ما يجلب مناقشات جديدة إلى مجال حماية أمن الذكاء الاصطناعي. أعلن Jan Leike ، وهو عضو سابق في فريق Openai Moalment ويعمل الآن في الأنثروبور ، على منصة X أن أحد المشاركين قد كسر بنجاح جميع مستويات الأمن الثمانية. تضمن هذا الجهد الجماعي حوالي 3700 ساعة من الاختبارات و 300000 رسالة من المشاركين.
على الرغم من انفراج تشالنجر الناجح ، أكد ليك أنه لم يتمكن أي شخص من اقتراح "طريقة حماية" شائعة لحل جميع التحديات الأمنية في وقت واحد. هذا يعني أنه على الرغم من الاختراق ، لا يزال هناك أي وسيلة لإيجاد طريقة عالمية لتجاوز جميع الحماية الأمنية.
تحديات وتحسين المصنفات المادية
عندما تصبح تقنيات الذكاء الاصطناعي قوية بشكل متزايد ، أصبحت كيفية حمايتها من التلاعب والاعتداء ، خاصة عندما يتعلق الأمر بالإنتاج الضار ، مشكلة متزايدة الأهمية. طورت الأنثروبور طريقة أمنية جديدة - مصنف دستور ، وتحديداً لمنع حدوث عمليات السجن العامة. تستخدم هذه الطريقة قواعد محددة مسبقًا لتحديد ما إذا كان محتوى الإدخال ممكنًا لمعالجة النموذج ، وبالتالي منع الاستجابات الخطرة.
لاختبار فعالية هذا النظام ، جند الإنسان 183 مشاركًا على مدار شهرين لمحاولة اختراق الحماية الأمنية لنموذج كلود 3.5. طُلب من المشاركين محاولة تجاوز آلية الأمان ، مما تسبب في كلود للإجابة على عشرة "أسئلة من المحرمات". على الرغم من تقديم مكافأة بقيمة 15000 دولار وحوالي 3000 ساعة من الاختبار ، لم يتمكن أحد من تجاوز جميع الحماية الأمنية.
واجهت الإصدارات السابقة من مصنف الدستور بعض المشكلات ، بما في ذلك الخطأ في وضع علامات على الطلبات غير الضارة كطلبات خطيرة والحاجة إلى الكثير من قوة الحوسبة. ولكن مع التحسينات اللاحقة ، تم حل هذه المشاكل بفعالية. تُظهر بيانات الاختبار أن 86 ٪ من محاولات التلاعب قد تم تمريرها في نموذج كلود غير محمي ، في حين منعت النسخة المحمية أكثر من 95 ٪ من محاولات التلاعب ، على الرغم من أن النظام لا يزال يتطلب قوة حوسبة عالية.
توليف بيانات التدريب والتحديات الأمنية المستقبلية
يعتمد نظام الأمان على بيانات التدريب الاصطناعي ، باستخدام قواعد محددة مسبقًا لإنشاء "دستور" للنموذج الذي يحدد المدخلات المسموح بها والتي يتم حظرها. يمكن للمصنف المدرب من خلال هذه الأمثلة الاصطناعية تحديد مدخلات مشبوهة بشكل فعال. ومع ذلك ، فإن الباحثين يعترفون بأن هذا النظام ليس مثاليًا ولا يمكنه التعامل مع جميع أشكال هجمات السجن الشاملة ، لذلك يوصى باستخدامه مع تدابير أمنية أخرى.
من أجل زيادة تعزيز التحقق من النظام ، أصدرت الأنثروبور نسخة مظاهرة عامة بين 3 و 10 فبراير 2025 ، ودعوة خبراء الأمن للمشاركة في التحدي ، وسيتم مشاركة النتائج معك من خلال التحديثات اللاحقة.
توضح هذه المسابقة على أمن الذكاء الاصطناعي التحديات الهائلة وتعقيد حماية نموذج الذكاء الاصطناعي. مع التقدم المستمر للتكنولوجيا ، كيفية تحسين وظائف النموذج مع ضمان أن الأمن لا يزال يمثل مشكلة مهمة تحتاجها صناعة الذكاء الاصطناعى إلى حلها بشكل عاجل.
باختصار ، لا تكشف نتائج هذا التحدي الأمني عن أوجه القصور في حماية أمن الذكاء الاصطناعي ، ولكن أيضًا تظهر جهود الأنثروبور والتقدم في تحسين أمان الذكاء الاصطناعي. في المستقبل ، لا يزال يتعين تحسين وتحسين أمان الذكاء الاصطناعي بشكل مستمر للوفاء بالتحديات المتطورة باستمرار.