Koushik Srivatsan Fahad Shamshad Muzammal Naseer Karthik Nandakumar
UAE 모하메드 빈 자예드 인공지능대학교(MBZUAI) .
대규모 T2IG(텍스트-이미지 생성) 모델이 급속히 확산되면서 유해한 콘텐츠 생성 시 오용될 수 있다는 우려가 제기되었습니다. T2IG 모델에서 원치 않는 개념을 삭제하기 위한 많은 방법이 제안되었지만 최근 연구에서는 개념 삭제 모델(CEM)이 쉽게 속아서 적의 공격을 통해 삭제된 개념을 생성할 수 있음을 보여 주었기 때문에 이는 잘못된 보안 감각만을 제공합니다. 모델 유용성(양성 개념 생성 능력)을 크게 저하시키지 않고 적대적으로 강력한 개념을 삭제하는 문제는 특히 적이 CEM에 액세스할 수 있는 화이트박스 설정에서 해결되지 않은 과제로 남아 있습니다. 이러한 격차를 해소하기 위해 우리는 두 가지 별개의 단계를 포함하는 STEREO 라는 접근 방식을 제안합니다. 첫 번째 단계에서는 적대적 훈련의 강력한 최적화 원칙을 활용하여 CEM에서 지워진 개념을 재생성할 수 있는 강력하고 다양한 적대적 프롬프트를 찾기 위해 STE (철저하게 충분히 검색 )를 수행 합니다 . 두 번째 REO ( R obustly Erase Once ) 단계에서는 모델 유틸리티의 저하를 최소화하는 동시에 대상 개념을 한 번에 강력하게 삭제하는 앵커 개념 기반 구성 목표를 도입합니다. 세 가지 적대적 공격 하에서 네 가지 최첨단 개념 삭제 방법에 대해 제안된 STEREO 접근 방식을 벤치마킹함으로써 우리는 유틸리티 대비 더 나은 견고성을 달성할 수 있는 능력을 보여줍니다.
텍스트-이미지 생성을 위한 대규모 확산 모델은 삭제 노력에도 불구하고 유해한 개념을 재생성할 수 있는 적대적 공격에 취약합니다. 양성 콘텐츠를 생성하는 모델의 기능을 유지하면서 이러한 재생성을 방지하도록 설계된 강력한 접근 방식인 STEREO를 소개합니다.
스테레오 개요 . 우리는 양성 개념의 유용성에 큰 영향을 주지 않고 사전 훈련된 텍스트-이미지 생성 모델에서 적대적으로 강력한 개념을 삭제하기 위한 새로운 2단계 프레임워크를 제안합니다.
1단계(상단) : STE(철저하게 충분히 검색)는 적대적 훈련의 강력한 최적화 프레임워크를 따르고 개념 삭제를 최소-최대 최적화 문제로 공식화하여 삭제된 모델에서 대상 개념을 재생성할 수 있는 강력한 적대적 프롬프트를 발견합니다. 우리 접근 방식의 핵심 참신함은 AT를 최종 솔루션으로 사용하는 것이 아니라 강력한 적대적 메시지를 충분히 검색하기 위한 중간 단계로만 사용한다는 사실에 있습니다.
2단계(하단) : Robustly Erase Once는 구성 목표를 통해 1단계의 앵커 개념과 강력한 적대적 프롬프트 세트를 사용하여 모델을 미세 조정하여 대상 개념을 강력하게 삭제하는 동시에 양성 개념의 충실도가 높은 생성을 유지합니다.
우리 작업과 이 저장소가 유용하다고 생각하시면 저장소에 별점을 주고 다음과 같이 우리 논문을 인용해 주시기 바랍니다.
@article { srivatsan2024stereo ,
title = { STEREO: Towards Adversarially Robust Concept Erasing from Text-to-Image Generation Models } ,
author = { Srivatsan, Koushik and Shamshad, Fahad and Naseer, Muzammal and Nandakumar, Karthik } ,
journal = { arXiv preprint arXiv:2408.16807 } ,
year = { 2024 }
}
질문이 있는 경우 이 저장소에 이슈를 생성하거나 [email protected]으로 문의하세요.
우리 코드는 ESD 저장소 위에 구축되었습니다. 코드를 공개해 주신 작성자에게 감사드립니다.