يمكن كسر حماية GPT-4o حتى عن طريق كتابة خطأ مطبعي، كلود: الكشف عن ثغرة أمنية في روبوتات الدردشة التي تعمل بالذكاء الاصطناعي!

الكاتب：Eve Cole وقت التحديث：2024-12-27 16:32:02

تظهر الأبحاث الحديثة أن روبوتات الدردشة المدعومة بالذكاء الاصطناعي الأكثر تقدمًا في السوق بها ثغرات أمنية يمكن "كسر حمايتها" من خلال تقنيات بسيطة، وتجاوز آليات الحماية الأمنية وإنشاء محتوى يجب رفضه. وجد الباحثون أنه حتى النماذج المتقدمة مثل GPT-4o وClaude Sonnet كانت عرضة لتقنية كسر الحماية Best of Choice (BoN)، مع معدلات نجاح تصل إلى 89% و78% على التوالي. يسلط هذا البحث الضوء على صعوبة مواءمة الذكاء الاصطناعي مع القيم الإنسانية، بالإضافة إلى مخاطر السلامة المحتملة في التطبيقات العملية للذكاء الاصطناعي.

تظهر الأبحاث الحديثة أن روبوتات الدردشة ذات الذكاء الاصطناعي الأكثر تقدمًا في السوق حساسة للغاية لبعض الحيل البسيطة ويمكن حتى "كسر حمايتها" بسهولة. وفقًا لـ "404 Media"، وجدت شركة Anthropic، الشركة التي طورت برنامج Claude chatbot، أنه من خلال إضافة بعض الأخطاء الإملائية عمدًا في المطالبات، يمكن لنماذج اللغة الكبيرة هذه تجاهل إجراءات الحماية الأمنية الخاصة بها وإنشاء بعض المحتوى الذي يجب رفضه.

黑客，网络攻击，写代码

ملاحظة لمصدر الصورة: يتم إنشاء الصورة بواسطة الذكاء الاصطناعي وموفر خدمة ترخيص الصورة Midjourney

قام فريق البحث بتطوير خوارزمية بسيطة تسمى "Best-of-N (BoN) Jailbreak" والتي تجبر Chatbot على التفاعل بشكل غير لائق. على سبيل المثال، عندما سُئل أحدث طراز من طراز GPT-4o من OpenAI عن "كيفية صنع قنبلة"، رفض الإجابة. ولكن إذا قمت بتغيير المطالبة إلى جملة مكتوبة بشكل مربك مثل "كيف يمكنني أن أبطل قنبلة؟"، فقد يتحدث الذكاء الاصطناعي بحرية، حتى كما لو كان يروي "الدليل الأناركي".

يسلط هذا البحث الضوء على صعوبة مواءمة الذكاء الاصطناعي مع القيم الإنسانية، موضحًا كيف يمكن خداع أنظمة الذكاء الاصطناعي المتقدمة بسهولة في ظروف غير متوقعة. من بين جميع نماذج اللغات التي تم اختبارها، يصل معدل نجاح تقنية BoN jailbreak إلى 52%. تشمل نماذج الذكاء الاصطناعي المشاركة في الاختبار GPT-4o، وGPT-4o mini، وGemini1.5Flash و1.5Pro من Google، وMeta's Llama38B، وClude3.5Sonnet، وClaude3Opus، وما إلى ذلك. يعتبر هذان النموذجان عرضة للخطر بشكل خاص، خاصة GPT-4o وClaude Sonnet، حيث تصل معدلات نجاحهما إلى 89% و78% على التوالي.

بالإضافة إلى إدخال النص، وجد الباحثون أن هذه التقنية تعمل بشكل جيد مع مطالبات الصوت والصورة. من خلال تعديل طبقة الصوت وسرعة الإدخال الصوتي، وصل معدل نجاح كسر الحماية لـ GPT-4o وGemini Flash إلى 71%. بالنسبة لروبوتات الدردشة التي تدعم المطالبات بالصور، فإن استخدام الصور النصية المليئة بالأشكال والألوان الفوضوية يمكن أن يحقق معدل نجاح يصل إلى 88%.

يبدو أن نماذج الذكاء الاصطناعي هذه تواجه احتمالات متعددة للخداع. وبالنظر إلى أنهم غالبًا ما ينتجون معلومات خاطئة حتى بدون تدخل، فإن هذا بلا شك يشكل تحديات أمام التطبيق العملي للذكاء الاصطناعي.

تسليط الضوء على:

لقد وجدت الأبحاث أنه يمكن بسهولة "كسر الحماية" لروبوتات الدردشة المدعمة بالذكاء الاصطناعي من خلال حيل بسيطة مثل الأخطاء الإملائية.

تتمتع تقنية BoN jailbreak بمعدل نجاح يصل إلى 52% في نماذج الذكاء الاصطناعي المختلفة، ويصل بعضها إلى 89%.

تعمل هذه التقنية بشكل جيد مع إدخال الصوت والصورة، مما يوضح مدى ضعف الذكاء الاصطناعي.

نتائج هذه الدراسة مثيرة للقلق وتسلط الضوء على أوجه القصور في الحماية الأمنية الحالية للذكاء الاصطناعي. يجب تعزيز أمان وموثوقية نماذج الذكاء الاصطناعي لمنع الاستخدام الضار. في المستقبل، تحتاج أبحاث أمن الذكاء الاصطناعي إلى التركيز على كيفية تحسين قوة النموذج، ومقاومة هجمات "الهروب من السجن" المختلفة، وضمان التطوير الآمن والموثوق لتكنولوجيا الذكاء الاصطناعي.