تنزيل robust concept erasing - تنزيل كود المصدر robust concept erasing

robust concept erasing

شفرة المصدر الأخرى

1.0.0

تنزيل

ستيريو : نحو محو مفهوم قوي عدائي من نماذج إنشاء النص إلى الصورة

كوشيك سريفاتسان فهد شمشاد مزمل نصير كارثيك نانداكومار
جامعة محمد بن زايد للذكاء الاصطناعي (MBZUAI)، الإمارات العربية المتحدة .

يطلق

(02 سبتمبر 2024)
- تم تحميل الورقة على arXiv.

خلاصة

أدى الانتشار السريع لنماذج تحويل النص إلى صورة واسعة النطاق (T2IG) إلى مخاوف بشأن احتمال إساءة استخدامها في توليد محتوى ضار. على الرغم من اقتراح العديد من الطرق لمحو المفاهيم غير المرغوب فيها من نماذج T2IG، إلا أنها توفر فقط إحساسًا زائفًا بالأمان، حيث توضح الأعمال الحديثة أنه يمكن خداع النماذج التي تم مسحها المفاهيم (CEMs) بسهولة لتوليد المفهوم المحذوف من خلال الهجمات العدائية. تظل مشكلة محو المفهوم القوي بشكل عدائي دون تدهور كبير في فائدة النموذج (القدرة على توليد مفاهيم حميدة) تمثل تحديًا لم يتم حله، خاصة في إعداد الصندوق الأبيض حيث يمكن للخصم الوصول إلى CEM. ولمعالجة هذه الفجوة، نقترح نهجًا يسمى STEREO يتضمن مرحلتين متميزتين. تبحث المرحلة الأولى بشكل شامل ( STE ) عن مطالبات عدائية قوية ومتنوعة يمكنها إعادة توليد مفهوم تم محوه من CEM، من خلال الاستفادة من مبادئ التحسين القوية من التدريب على الخصومة. في المرحلة الثانية من عملية الحذف ( REO )، نقدم هدفًا تركيبيًا قائمًا على مفهوم المرساة لمحو المفهوم المستهدف بقوة دفعة واحدة، مع محاولة تقليل التدهور في فائدة النموذج. من خلال قياس نهج STEREO المقترح مقابل أربع طرق حديثة لمحو المفهوم في ظل ثلاث هجمات عدائية، نثبت قدرته على تحقيق متانة أفضل مقابل مقايضة المرافق.

أبرز

إن نماذج الانتشار واسعة النطاق لتوليد النص إلى صورة معرضة للهجمات العدائية التي يمكن أن تجدد مفاهيم ضارة على الرغم من جهود المحو. نحن نقدم STEREO ، وهو أسلوب قوي مصمم لمنع هذا التجديد مع الحفاظ على قدرة النموذج على إنشاء محتوى حميد.

نظرة عامة على ستيريو . نقترح إطارًا جديدًا من مرحلتين لمحو المفاهيم القوية من نماذج توليد النص إلى الصورة المدربة مسبقًا دون التأثير بشكل كبير على فائدة المفاهيم الحميدة.

المرحلة 1 (أعلى) : تتبع عملية البحث الشاملة بما فيه الكفاية (STE) إطار التحسين القوي لتدريب الخصومة وتصوغ محو المفهوم كمشكلة تحسين بالحد الأدنى والحد الأقصى، لاكتشاف المطالبات الخصومية القوية التي يمكنها تجديد المفاهيم المستهدفة من النماذج التي تم مسحها. لاحظ أن الحداثة الأساسية في نهجنا تكمن في حقيقة أننا نستخدم التكنولوجيا المساعدة ليس كحل نهائي، ولكن فقط كخطوة وسيطة للبحث بشكل شامل بما فيه الكفاية عن المطالبات الخصومية القوية.

المرحلة 2 (أسفل) : المحو بقوة بمجرد ضبط النموذج باستخدام مفهوم مرساة ومجموعة من المطالبات الخصومة القوية من المرحلة 1 عبر هدف تركيبي، مع الحفاظ على توليد عالي الدقة من المفاهيم الحميدة مع محو المفهوم المستهدف بقوة.

الكود والنماذج قريبا !!

الاقتباس

إذا وجدت عملنا وهذا المستودع مفيدًا، فيرجى التفكير في منح الريبو الخاص بنا نجمة والاستشهاد بورقتنا البحثية على النحو التالي:

 @article { srivatsan2024stereo ,
  title = { STEREO: Towards Adversarially Robust Concept Erasing from Text-to-Image Generation Models } ,
  author = { Srivatsan, Koushik and Shamshad, Fahad and Naseer, Muzammal and Nandakumar, Karthik } ,
  journal = { arXiv preprint arXiv:2408.16807 } ,
  year = { 2024 }
}