現在の LLM 生成テキスト検出器は、攻撃に対する堅牢性に欠けています。LLM 生成テキストを単に言い換えるだけで、検出精度が低下します。さらに、悪意のあるユーザーが LLM を悪用して、検出を回避するために特別に設計されたテキストを作成する可能性がある未調査のリスクがあります。
この論文では、検出器と攻撃者の両方が互いの出力を考慮できるようにすることで、LLM 検出器の堅牢性を向上させるフレームワークであるOUTFOXを提案します。このフレームワークでは、攻撃者は検出器の予測ラベルをコンテキスト内学習の例として使用し、検出が困難なエッセイを敵対的に生成しますが、検出器は敵対的に生成されたエッセイをコンテキスト内学習の例として使用して、エッセイを検出する方法を学習します。強力なアタッカー。
学生の作文の領域における実験では次のことが示されています...
$ python -m venv env
$ source env/bin/activate
$ pip install -r requirements.txt
scripts
ディレクトリ内の任意のスクリプトを実行します。
scripts/detection.sh
、OUTFOX 検出とベースライン検出のためのスクリプトです。
scripts/attacking.sh
OUTFOX 攻撃およびベースライン言い換え攻撃用のスクリプトです。
私たちは Kaggle フィードバック賞に基づいてデータセットを作成しました。データセットには、エッセイの問題文、人間 (ネイティブの学生) が書いたエッセイ、LLM が生成したエッセイの 15,400 個のトリプレットが含まれています。ネイティブの生徒は米国の 6 年生から 12 年生までです。
ChatGPT( gpt-3.5-turbo-0613
)、GPT-3.5( text-davinci-003
)、およびFLAN-T5-XXL
3 つの LM にエッセイを生成するように指示します。データセットを 3 つの部分 (それぞれ 14400/500/500 個の例を使用したトレーニング/検証/テスト) に分割しました。
これは、データセットを構成するファイル名に関する補足情報です。
ファイル名 | コンテンツ |
---|---|
(train|valid|test)_problem_statements.pkl | 各セットのエッセイ問題のステートメント。 |
(train|valid|test)_humans.pkl | 各セットには人間が書いたエッセイ。 |
(train|valid|test)_lms.pkl | LLM によって生成されたエッセイが各セットに含まれています。 |
さらに、 (train|valid|test)_contexts.pkl
には、各セットのエッセイを生成するために使用されるプロンプトが含まれています。これらを使用して、統計的外れ値検出器で尤度を計算します。
また、OUTFOX 攻撃者による攻撃されたエッセイはdata/chatgpt/test/test_outfox_attacks.pkl
で提供され、DIPPER による攻撃されたエッセイはdata/dipper/(chatgpt|text_davinci_003|flan_t5_xxl)/test_attacks.pkl
で提供されます。
@InProceedings{Koike:OUTFOX:2024,
author = {Ryuto Koike and Masahiro Kaneko and Naoaki Okazaki},
title = {OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with Adversarially Generated Examples},
booktitle = {Proceedings of the 38th AAAI Conference on Artificial Intelligence},
year = {2024},
month = {February},
address = {Vancouver, Canada}
}