Aktuellen LLM-generierten Textdetektoren mangelt es an Robustheit gegenüber Angriffen: Sie verschlechtern die Erkennungsgenauigkeit, indem sie LLM-generierte Texte einfach umschreiben. Darüber hinaus besteht das unerforschte Risiko, dass böswillige Benutzer LLMs nutzen könnten, um Texte zu erstellen, die speziell darauf ausgelegt sind, der Entdeckung zu entgehen.
In diesem Artikel schlagen wir OUTFOX vor, ein Framework, das die Robustheit von LLM-Detektoren verbessert, indem es sowohl dem Detektor als auch dem Angreifer ermöglicht, die Ausgabe des anderen zu berücksichtigen . In diesem Rahmen verwendet der Angreifer die Vorhersagebezeichnungen des Detektors als Beispiele für kontextbezogenes Lernen und generiert auf kontradiktorische Weise Aufsätze, die schwerer zu erkennen sind, während der Detektor die auf kontradiktorische Weise generierten Aufsätze als Beispiele für kontextbezogenes Lernen verwendet, um zu lernen, Aufsätze aus einem zu erkennen starker Angreifer.
Experimente im Bereich studentischer Aufsätze zeigen, dass...
$ python -m venv env
$ source env/bin/activate
$ pip install -r requirements.txt
Führen Sie ein beliebiges Skript im scripts
aus.
scripts/detection.sh
ist ein Skript für unsere OUTFOX-Erkennung und Basiserkennungen.
scripts/attacking.sh
ist ein Skript für unseren OUTFOX-Angriff und den Baseline-Paraphrasierungsangriff.
Wir haben unseren Datensatz auf der Grundlage des Kaggle FeedBack Prize erstellt und unser Datensatz enthält 15.400 Tripletts mit Essay-Problemstellungen, von Menschen (Muttersprachlern) verfassten Aufsätzen und von LLM erstellten Aufsätzen. Die einheimischen Schüler reichen in den USA von der 6. bis zur 12. Klasse
Wir weisen drei LMs an, Aufsätze zu erstellen: ChatGPT( gpt-3.5-turbo-0613
), GPT-3.5( text-davinci-003
) und FLAN-T5-XXL
. Wir teilen den Datensatz in drei Teile auf: Trainieren/Validieren/Testen mit jeweils 14400/500/500 Beispielen.
Hierbei handelt es sich um ergänzende Informationen zu den Dateinamen, aus denen unser Datensatz besteht.
Dateiname | Inhalt |
---|---|
(train|valid|test)_problem_statements.pkl | Essay-Problemstellungen in jedem Satz. |
(train|valid|test)_humans.pkl | Von Menschen geschriebene Aufsätze in jedem Satz. |
(train|valid|test)_lms.pkl | Von LLM erstellte Aufsätze in jedem Satz. |
Darüber hinaus enthält (train|valid|test)_contexts.pkl
die Eingabeaufforderungen, die zum Generieren von Aufsätzen in jedem Satz verwendet werden. Wir verwenden diese, um die Wahrscheinlichkeit in statistischen Ausreißerdetektoren zu berechnen.
Wir stellen auch die angegriffenen Aufsätze unseres OUTFOX-Angreifers in data/chatgpt/test/test_outfox_attacks.pkl
und die angegriffenen Aufsätze von DIPPER in data/dipper/(chatgpt|text_davinci_003|flan_t5_xxl)/test_attacks.pkl
zur Verfügung.
@InProceedings{Koike:OUTFOX:2024,
author = {Ryuto Koike and Masahiro Kaneko and Naoaki Okazaki},
title = {OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with Adversarially Generated Examples},
booktitle = {Proceedings of the 38th AAAI Conference on Artificial Intelligence},
year = {2024},
month = {February},
address = {Vancouver, Canada}
}