كوشيك سريفاتسان فهد شمشاد مزمل نصير كارثيك نانداكومار
جامعة محمد بن زايد للذكاء الاصطناعي (MBZUAI)، الإمارات العربية المتحدة .
أدى الانتشار السريع لنماذج تحويل النص إلى صورة واسعة النطاق (T2IG) إلى مخاوف بشأن احتمال إساءة استخدامها في توليد محتوى ضار. على الرغم من اقتراح العديد من الطرق لمحو المفاهيم غير المرغوب فيها من نماذج T2IG، إلا أنها توفر فقط إحساسًا زائفًا بالأمان، حيث توضح الأعمال الحديثة أنه يمكن خداع النماذج التي تم مسحها المفاهيم (CEMs) بسهولة لتوليد المفهوم المحذوف من خلال الهجمات العدائية. تظل مشكلة محو المفهوم القوي بشكل عدائي دون تدهور كبير في فائدة النموذج (القدرة على توليد مفاهيم حميدة) تمثل تحديًا لم يتم حله، خاصة في إعداد الصندوق الأبيض حيث يمكن للخصم الوصول إلى CEM. ولمعالجة هذه الفجوة، نقترح نهجًا يسمى STEREO يتضمن مرحلتين متميزتين. تبحث المرحلة الأولى بشكل شامل ( STE ) عن مطالبات عدائية قوية ومتنوعة يمكنها إعادة توليد مفهوم تم محوه من CEM، من خلال الاستفادة من مبادئ التحسين القوية من التدريب على الخصومة. في المرحلة الثانية من عملية الحذف ( REO )، نقدم هدفًا تركيبيًا قائمًا على مفهوم المرساة لمحو المفهوم المستهدف بقوة دفعة واحدة، مع محاولة تقليل التدهور في فائدة النموذج. من خلال قياس نهج STEREO المقترح مقابل أربع طرق حديثة لمحو المفهوم في ظل ثلاث هجمات عدائية، نثبت قدرته على تحقيق متانة أفضل مقابل مقايضة المرافق.
إن نماذج الانتشار واسعة النطاق لتوليد النص إلى صورة معرضة للهجمات العدائية التي يمكن أن تجدد مفاهيم ضارة على الرغم من جهود المحو. نحن نقدم STEREO ، وهو أسلوب قوي مصمم لمنع هذا التجديد مع الحفاظ على قدرة النموذج على إنشاء محتوى حميد.
نظرة عامة على ستيريو . نقترح إطارًا جديدًا من مرحلتين لمحو المفاهيم القوية من نماذج توليد النص إلى الصورة المدربة مسبقًا دون التأثير بشكل كبير على فائدة المفاهيم الحميدة.
المرحلة 1 (أعلى) : تتبع عملية البحث الشاملة بما فيه الكفاية (STE) إطار التحسين القوي لتدريب الخصومة وتصوغ محو المفهوم كمشكلة تحسين بالحد الأدنى والحد الأقصى، لاكتشاف المطالبات الخصومية القوية التي يمكنها تجديد المفاهيم المستهدفة من النماذج التي تم مسحها. لاحظ أن الحداثة الأساسية في نهجنا تكمن في حقيقة أننا نستخدم التكنولوجيا المساعدة ليس كحل نهائي، ولكن فقط كخطوة وسيطة للبحث بشكل شامل بما فيه الكفاية عن المطالبات الخصومية القوية.
المرحلة 2 (أسفل) : المحو بقوة بمجرد ضبط النموذج باستخدام مفهوم مرساة ومجموعة من المطالبات الخصومة القوية من المرحلة 1 عبر هدف تركيبي، مع الحفاظ على توليد عالي الدقة من المفاهيم الحميدة مع محو المفهوم المستهدف بقوة.
إذا وجدت عملنا وهذا المستودع مفيدًا، فيرجى التفكير في منح الريبو الخاص بنا نجمة والاستشهاد بورقتنا البحثية على النحو التالي:
@article { srivatsan2024stereo ,
title = { STEREO: Towards Adversarially Robust Concept Erasing from Text-to-Image Generation Models } ,
author = { Srivatsan, Koushik and Shamshad, Fahad and Naseer, Muzammal and Nandakumar, Karthik } ,
journal = { arXiv preprint arXiv:2408.16807 } ,
year = { 2024 }
}
إذا كان لديك أي أسئلة، يرجى إنشاء مشكلة في هذا المستودع أو الاتصال على [email protected].
تم بناء الكود الخاص بنا أعلى مستودع ESD. ونحن نشكر المؤلفين لإصدار الكود الخاص بهم.