현재 LLM 생성 텍스트 탐지기는 공격에 대한 견고성이 부족합니다. 단순히 LLM 생성 텍스트를 바꾸어 말하면 탐지 정확도가 떨어집니다. 또한 악의적인 사용자가 LLM을 악용하여 탐지를 회피하도록 특별히 설계된 텍스트를 생성할 수 있는 미지의 위험이 있습니다.
본 논문에서는 탐지기와 공격자가 서로의 출력을 고려할 수 있도록 하여 LLM 탐지기의 견고성을 향상시키는 프레임워크인 OUTFOX를 제안합니다. 이 프레임워크에서 공격자는 탐지기의 예측 레이블을 상황 내 학습의 예로 사용하고 탐지하기 더 어려운 에세이를 적대적으로 생성하는 반면, 탐지기는 상황 내 학습의 예로 적대적으로 생성된 에세이를 사용하여 에세이를 탐지하는 방법을 학습합니다. 강력한 공격자.
학생 에세이 영역에서의 실험은 다음과 같은 사실을 보여줍니다.
$ python -m venv env
$ source env/bin/activate
$ pip install -r requirements.txt
scripts
디렉터리에 있는 스크립트를 실행합니다.
scripts/detection.sh
OUTFOX 탐지 및 기준 탐지를 위한 스크립트입니다.
scripts/attacking.sh
는 OUTFOX 공격 및 기본 패러프레이징 공격을 위한 스크립트입니다.
우리는 Kaggle FeedBack Prize를 기반으로 데이터세트를 만들었고, 데이터세트에는 15,400개의 에세이 문제 설명, 사람(원어민 학생)이 쓴 에세이, LLM에서 생성한 에세이가 포함되어 있습니다. 원어민 학생들은 미국 6학년부터 12학년까지 다양합니다.
ChatGPT( gpt-3.5-turbo-0613
), GPT-3.5( text-davinci-003
) 및 FLAN-T5-XXL
세 명의 LM에게 에세이를 생성하도록 지시합니다. 데이터 세트를 각각 14400/500/500개의 예시로 학습/검증/테스트의 세 부분으로 나눕니다.
이는 데이터 세트를 구성하는 파일 이름에 대한 보충 정보입니다.
파일 이름 | 콘텐츠 |
---|---|
(train|valid|test)_problem_statements.pkl | 각 세트의 문제 설명을 에세이로 작성하세요. |
(train|valid|test)_humans.pkl | 각 세트에는 사람이 쓴 에세이가 포함되어 있습니다. |
(train|valid|test)_lms.pkl | 각 세트의 LLM 생성 에세이. |
또한 (train|valid|test)_contexts.pkl
에는 각 세트에서 에세이를 생성하는 데 사용되는 프롬프트가 포함되어 있습니다. 우리는 이를 사용하여 통계적 이상치 탐지기의 가능성을 계산합니다.
또한 data/chatgpt/test/test_outfox_attacks.pkl
에서 OUTFOX 공격자가 공격한 에세이를 제공하고 data/dipper/(chatgpt|text_davinci_003|flan_t5_xxl)/test_attacks.pkl
에서 DIPPER가 공격한 에세이를 제공합니다.
@InProceedings{Koike:OUTFOX:2024,
author = {Ryuto Koike and Masahiro Kaneko and Naoaki Okazaki},
title = {OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with Adversarially Generated Examples},
booktitle = {Proceedings of the 38th AAAI Conference on Artificial Intelligence},
year = {2024},
month = {February},
address = {Vancouver, Canada}
}