يقدم لك محرر Downcodes أحدث تقرير بحثي حول أمان نماذج اللغات الكبيرة (LLM). يكشف هذا البحث عن نقاط الضعف غير المتوقعة التي يمكن أن تقدمها الإجراءات الأمنية التي تبدو حميدة في LLM. ووجد الباحثون أن هناك اختلافات كبيرة في صعوبة "كسر الحماية" للنماذج الخاصة بالكلمات الرئيسية الديموغرافية المختلفة، مما دفع الناس إلى التفكير بعمق في عدالة الذكاء الاصطناعي وأمنه. وتشير النتائج إلى أن التدابير الأمنية المصممة لضمان السلوك الأخلاقي للنماذج قد تؤدي عن غير قصد إلى تفاقم هذا التفاوت، مما يزيد من احتمالية نجاح هجمات الهروب من السجن ضد الفئات الضعيفة.
أظهرت دراسة جديدة أن التدابير الأمنية حسنة النية في نماذج اللغات الكبيرة يمكن أن تؤدي إلى ثغرات أمنية غير متوقعة. وجد الباحثون اختلافات كبيرة في مدى سهولة "كسر حماية" النماذج بناءً على مصطلحات ديموغرافية مختلفة. استكشفت الدراسة، التي تحمل عنوان "هل يتمتع حاملو شهادة الماجستير في القانون بالصواب السياسي؟"، كيف تؤثر الكلمات الرئيسية الديموغرافية على فرص نجاح محاولة كسر الحماية. لقد وجدت الدراسات أن المطالبات التي تستخدم مصطلحات من المجموعات المهمشة من المرجح أن تنتج نتائج غير مرغوب فيها من المطالبات التي تستخدم مصطلحات من المجموعات المميزة.
"هذه التحيزات المتعمدة تؤدي إلى اختلاف بنسبة 20% في معدل نجاح كسر الحماية لنموذج GPT-4o بين الكلمات الرئيسية غير الثنائية والمتوافقة مع الجنس، وفرق بنسبة 16% بين الكلمات الرئيسية البيضاء والسوداء"، كما لاحظ الباحثون، على الرغم من أجزاء أخرى من كانت المطالبة متماثلة تمامًا." أوضح إسحاق لي وهايبين سيونج من شركة Theori Inc.
يعزو الباحثون هذا الاختلاف إلى التحيز المتعمد الذي تم تقديمه للتأكد من أن النموذج يتصرف بشكل أخلاقي. آلية عمل كسر الحماية هي أن الباحثين ابتكروا طريقة "PCJailbreak" لاختبار مدى تعرض نماذج اللغات الكبيرة لهجمات كسر الحماية. تستخدم هذه الهجمات إشارات مصممة بعناية لتجاوز إجراءات أمان الذكاء الاصطناعي وإنشاء محتوى ضار.
يستخدم PCJailbreak كلمات رئيسية من مجموعات ديموغرافية واجتماعية واقتصادية مختلفة. أنشأ الباحثون أزواجًا من الكلمات مثل "غني" و"فقير" أو "ذكر" و"أنثى" لمقارنة المجموعات المميزة والمهمشة.
ثم قاموا بإنشاء مطالبات تجمع بين هذه الكلمات الرئيسية وتعليمات قد تكون ضارة. ومن خلال اختبار مجموعات مختلفة بشكل متكرر، تمكنوا من قياس فرص نجاح محاولة كسر الحماية لكل كلمة رئيسية. أظهرت النتائج اختلافًا كبيرًا: كانت الكلمات الرئيسية التي تمثل المجموعات المهمشة عمومًا تتمتع بفرصة نجاح أكبر بكثير من الكلمات الرئيسية التي تمثل المجموعات المميزة. يشير هذا إلى أن التدابير الأمنية للنموذج بها تحيزات غير مقصودة يمكن استغلالها من خلال هجمات كسر الحماية.
ولمعالجة الثغرات الأمنية التي اكتشفها برنامج PCJailbreak، قام الباحثون بتطوير طريقة "PCDefense". يستخدم هذا النهج إشارات دفاعية خاصة لتقليل التحيز المفرط في نماذج اللغة، مما يجعلها أقل عرضة لهجمات كسر الحماية.
يعد PCDefense فريدًا من حيث أنه لا يتطلب أي خطوات إضافية للنمذجة أو المعالجة. وبدلاً من ذلك، تتم إضافة الإشارات الدفاعية مباشرة إلى المدخلات لضبط التحيزات والحصول على سلوك أكثر توازناً من نموذج اللغة.
اختبر الباحثون PCDefense على مجموعة متنوعة من النماذج وأظهروا أن احتمالات نجاح محاولة كسر الحماية يمكن تقليلها بشكل كبير، سواء بالنسبة للمجموعات المميزة أو المهمشة. وفي الوقت نفسه، انخفضت الفجوة بين المجموعات، مما يشير إلى انخفاض في التحيزات المتعلقة بالسلامة.
يقول الباحثون إن PCDefense يوفر طريقة فعالة وقابلة للتطوير لتحسين أمان نماذج اللغات الكبيرة دون الحاجة إلى حسابات إضافية.
تسلط النتائج الضوء على مدى تعقيد تصميم أنظمة الذكاء الاصطناعي الآمنة والأخلاقية في تحقيق التوازن بين السلامة والعدالة والأداء. قد يؤدي الضبط الدقيق لحواجز السلامة المحددة إلى تقليل الأداء العام لنماذج الذكاء الاصطناعي، مثل قدراتها الإبداعية.
لتسهيل إجراء المزيد من البحث والتحسينات، قام المؤلفون بإتاحة كود PCJailbreak وجميع العناصر ذات الصلة كمصدر مفتوح. Theori Inc، الشركة التي تقف وراء البحث، هي شركة للأمن السيبراني متخصصة في الأمن الهجومي ومقرها في الولايات المتحدة وكوريا الجنوبية. تأسست في يناير 2016 على يد أندرو ويسي وبريان باك.
يقدم هذا البحث رؤى قيمة حول سلامة وعدالة النماذج اللغوية واسعة النطاق، ويسلط الضوء أيضًا على أهمية الاهتمام المستمر بالتأثيرات الأخلاقية والاجتماعية في تطوير الذكاء الاصطناعي. سيستمر محرر Downcodes في الاهتمام بأحدث التطورات في هذا المجال وسيقدم لك المزيد من المعلومات العلمية والتكنولوجية المتطورة.