أحدث "مصنف جسم" للأنثروبور قد جلبت اختراقات جديدة إلى حماية أمن الذكاء الاصطناعي. تم تصميم هذه التكنولوجيا لمقاومة هجمات "Universal Jailbreak" بشكل فعال ومنع نماذج الذكاء الاصطناعي من توليد محتوى ضار. من خلال الاختبارات الواسعة النطاق ، كان 183 مشاركًا لا يزالون غير قادرين على تجاوز حماية أمن النظام تمامًا تحت حافز المكافآت العالية والوقت الكافي ، والتي أظهرت تمامًا القدرات الدفاعية القوية لـ "المصنف المادي". ستجري هذه المقالة مناقشة متعمقة حول مبدأ العمل وعملية التحسين وتوجيه التنمية المستقبلي لـ "مصنف الدستور المادي".
أعلنت شركة الذكاء الاصطناعي الأنثروبري مؤخرًا عن تطوير طريقة أمنية جديدة تسمى "مصنف الدستور الجسدي" التي تهدف إلى حماية نماذج اللغة من التلاعب الضار. تهدف هذه التكنولوجيا على وجه التحديد إلى "كسر الحماية العالمية" - طريقة للمدخلات التي تحاول تجاوز جميع التدابير الأمنية لمنع نماذج الذكاء الاصطناعى من توليد محتوى ضار.
للتحقق من فعالية هذه التكنولوجيا ، أجرت الأنثروبور اختبارًا واسع النطاق. قامت الشركة بتوظيف 183 مشاركًا لمحاولة اختراق نظام الدفاع في غضون شهرين. طُلب من المشاركين محاولة الحصول على نموذج AI Claude 3.5 للإجابة على عشرة أسئلة محظورة من خلال إدخال أسئلة محددة. على الرغم من تقديم ما يصل إلى 15000 دولار ، وحوالي 3000 ساعة من وقت الاختبار ، لم يتمكن أي مشارك من تجاوز التدابير الأمنية للأنثروبولوجيا.
تقدم من التحديات
كان للنسخة المبكرة للأنثروبور من "مصنف دستور الجسم" مشكلتان رئيسيتان: كان أحدهما هو إساءة تقدير الكثير من الطلبات غير الضارة كطلبات خطيرة ، والآخر هو طلب كمية كبيرة من موارد الحوسبة. بعد التحسن ، يقلل المصنف الجديد بشكل كبير من معدل سوء الحكم ويؤدي إلى تحسين كفاءة الحوسبة. ومع ذلك ، يوضح الاختبار التلقائي أنه على الرغم من أن النظام المحسن قد منع بنجاح أكثر من 95 ٪ من محاولات كسر السجن ، إلا أن 23.7 ٪ إضافية من طاقة الحوسبة مطلوبة لتشغيلها. في المقابل ، يسمح نموذج كلود غير المحمي بنسبة 86 ٪ من محاولات Jailbreak لتمريرها.
التدريب على أساس البيانات الاصطناعية
إن جوهر "مصنف الدستور" هو استخدام القواعد المحددة مسبقًا (تسمى "الدستور") للتمييز بين المسموح بها والمحظر. يقوم النظام بتدريب المصنف على تحديد المدخلات المشبوهة من خلال توليد أمثلة تدريب تركيبية بلغات وأنماط متعددة. هذا النهج لا يحسن دقة النظام فحسب ، بل يعزز أيضًا قدرته على التعامل مع الهجمات المتنوعة.
على الرغم من التقدم الكبير ، يعترف الباحثون الأنثروبريون بأن النظام ليس مثاليًا. قد لا يكون قادرًا على التعامل مع جميع أنواع هجمات السجن الشاملة ، وقد تظهر أساليب الهجوم الجديدة في المستقبل. لذلك ، توصي الأنثروبور باستخدام "مصنف الدستور" بالتزامن مع تدابير السلامة الأخرى لتوفير حماية أكثر شمولاً.
الاختبارات العامة والآفاق المستقبلية
لمزيد من اختبار قوة النظام ، تخطط الإنسان لإصدار نسخة تجريبية عامة بين 3 و 10 فبراير 2025 ، ودعا خبراء الأمن لمحاولة كسرها. سيتم الإعلان عن نتائج الاختبار في التحديثات اللاحقة. لا توضح هذه الخطوة التزام الأنثروبور بالشفافية التكنولوجية فحسب ، بل توفر أيضًا بيانات قيمة للبحث في مجال أمان الذكاء الاصطناعي.
يمثل "مصنف الجسم" للأنثروبور تقدمًا مهمًا في الحماية الأمنية لنماذج الذكاء الاصطناعى. مع التطور السريع لتكنولوجيا الذكاء الاصطناعي ، أصبحت كيفية منع إساءة استخدام النماذج بفعالية محور اهتمام الصناعة. توفر ابتكارات الأنثروبور حلولًا جديدة لهذا التحدي ، مع الإشارة أيضًا إلى اتجاه أبحاث أمان الذكاء الاصطناعى في المستقبل.
يضع "مصنف الجسم" في الإنسان معيارًا جديدًا لمجال أمن الذكاء الاصطناعي ، ومفاهيم الاختبارات العامة والتحسين المستمر تستحق التعلم منها. في المستقبل ، مع التطوير المستمر للتكنولوجيا وتطور التهديدات الأمنية ، فإن تحسين وترقية "المصنفات المادية" سيلعب دورًا أكثر أهمية في ضمان أمان الذكاء الاصطناعي.