目前的 LLM 產生的文字偵測器缺乏針對攻擊的穩健性:它們透過簡單地解釋 LLM 產生的文字來降低偵測準確度。此外,還存在未經探索的風險,惡意使用者可能會利用 LLM 創建專門用於逃避偵測的文字。
在本文中,我們提出了OUTFOX ,這是一個框架,透過允許偵測器和攻擊者考慮彼此的輸出來提高LLM偵測器的穩健性。在這個框架中,攻擊者使用偵測器的預測標籤作為上下文學習的範例,並對抗性地生成更難檢測的文章,而偵測器使用對抗性生成的文章作為上下文學習的範例,以學習從強攻擊者。
學生論文領域的實驗顯示......
$ python -m venv env
$ source env/bin/activate
$ pip install -r requirements.txt
運行scripts
目錄中的任何腳本。
scripts/detection.sh
是我們的 OUTFOX 檢測和基線檢測的腳本。
scripts/attacking.sh
是我們的 OUTFOX 攻擊和基線釋義攻擊的腳本。
我們根據 Kaggle FeedBack 獎創建了資料集,資料集包含 15,400 個論文問題陳述、人類(母語學生)撰寫的論文和法學碩士生成的論文。美國本地學生涵蓋6至12年級
我們指示三個 LM 產生論文:ChatGPT( gpt-3.5-turbo-0613
)、GPT-3.5( text-davinci-003
) 和FLAN-T5-XXL
。我們將資料集分為三個部分:分別包含 14400/500/500 個範例的訓練/驗證/測試。
這是有關構成我們的資料集的文件名的補充資訊。
檔案名稱 | 內容 |
---|---|
(train|valid|test)_problem_statements.pkl | 每組論文問題陳述。 |
(train|valid|test)_humans.pkl | 每組都有人工撰寫的論文。 |
(train|valid|test)_lms.pkl | 每套由法學碩士產生的論文。 |
此外, (train|valid|test)_contexts.pkl
包含用於產生每組論文的提示。我們使用它們來計算統計異常值檢測器的可能性。
我們也在data/chatgpt/test/test_outfox_attacks.pkl
中提供了 OUTFOX 攻擊者的攻擊文章,在data/dipper/(chatgpt|text_davinci_003|flan_t5_xxl)/test_attacks.pkl
中提供了 DIPPER 的攻擊文章。
@InProceedings{Koike:OUTFOX:2024,
author = {Ryuto Koike and Masahiro Kaneko and Naoaki Okazaki},
title = {OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with Adversarially Generated Examples},
booktitle = {Proceedings of the 38th AAAI Conference on Artificial Intelligence},
year = {2024},
month = {February},
address = {Vancouver, Canada}
}