Pendeteksi teks yang dihasilkan LLM saat ini tidak memiliki ketahanan terhadap serangan: alat ini menurunkan keakuratan deteksi hanya dengan memparafrasekan teks yang dihasilkan LLM. Selain itu, ada risiko yang belum dijelajahi di mana pengguna jahat mungkin mengeksploitasi LLM untuk membuat teks yang dirancang khusus untuk menghindari deteksi.
Dalam makalah ini, kami mengusulkan OUTFOX , sebuah kerangka kerja yang meningkatkan ketahanan detektor LLM dengan memungkinkan detektor dan penyerang mempertimbangkan keluaran masing-masing . Dalam kerangka kerja ini, penyerang menggunakan label prediksi detektor sebagai contoh untuk pembelajaran dalam konteks dan secara permusuhan menghasilkan esai yang lebih sulit dideteksi, sedangkan detektor menggunakan esai yang dihasilkan secara permusuhan sebagai contoh untuk pembelajaran dalam konteks untuk belajar mendeteksi esai dari sebuah penyerang yang kuat.
Eksperimen pada ranah esai siswa menunjukkan bahwa...
$ python -m venv env
$ source env/bin/activate
$ pip install -r requirements.txt
Jalankan skrip apa pun di direktori scripts
.
scripts/detection.sh
adalah skrip untuk deteksi OUTFOX dan deteksi dasar kami.
scripts/attacking.sh
adalah skrip untuk serangan OUTFOX dan serangan parafrase dasar kami.
Kami membuat kumpulan data berdasarkan Kaggle FeedBack Prize, dan kumpulan data kami berisi 15.400 kembar tiga pernyataan masalah esai, esai yang ditulis manusia (siswa asli), dan esai yang dihasilkan LLM. Siswa asli berkisar dari kelas 6 hingga 12 di AS
Kami menginstruksikan tiga LM untuk menghasilkan esai: ChatGPT( gpt-3.5-turbo-0613
), GPT-3.5( text-davinci-003
), dan FLAN-T5-XXL
. Kami membagi kumpulan data menjadi tiga bagian: pelatihan/validasi/pengujian dengan masing-masing 14400/500/500 contoh.
Ini adalah informasi tambahan tentang nama file yang terdiri dari dataset kami.
Nama berkas | Isi |
---|---|
(train|valid|test)_problem_statements.pkl | Pernyataan masalah esai di setiap set. |
(train|valid|test)_humans.pkl | Esai yang ditulis manusia di setiap set. |
(train|valid|test)_lms.pkl | Esai yang dihasilkan LLM di setiap set. |
Selain itu, (train|valid|test)_contexts.pkl
menyertakan petunjuk yang digunakan untuk menghasilkan esai di setiap set. Kami menggunakan ini untuk menghitung kemungkinan dalam detektor outlier statistik.
Kami juga menyediakan esai yang diserang oleh penyerang OUTFOX kami di data/chatgpt/test/test_outfox_attacks.pkl
dan esai yang diserang oleh DIPPER di data/dipper/(chatgpt|text_davinci_003|flan_t5_xxl)/test_attacks.pkl
.
@InProceedings{Koike:OUTFOX:2024,
author = {Ryuto Koike and Masahiro Kaneko and Naoaki Okazaki},
title = {OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with Adversarially Generated Examples},
booktitle = {Proceedings of the 38th AAAI Conference on Artificial Intelligence},
year = {2024},
month = {February},
address = {Vancouver, Canada}
}