ตัวตรวจจับข้อความที่สร้างโดย LLM ในปัจจุบันยังขาดความทนทานต่อการโจมตี โดยลดความแม่นยำในการตรวจจับลงโดยเพียงแค่ถอดความข้อความที่สร้างโดย LLM นอกจากนี้ ยังมีความเสี่ยงที่ผู้ใช้ที่เป็นอันตรายอาจใช้ประโยชน์จาก LLM เพื่อสร้างข้อความที่ออกแบบมาเพื่อหลบเลี่ยงการตรวจจับโดยเฉพาะ
ในบทความนี้ เราเสนอ OUTFOX ซึ่งเป็นกรอบการทำงานที่ปรับปรุงความทนทานของเครื่องตรวจจับ LLM โดยอนุญาตให้ ทั้งตัวตรวจจับและผู้โจมตีพิจารณาผลลัพธ์ของกันและกัน ในกรอบงานนี้ ผู้โจมตีใช้ป้ายกำกับการทำนายของเครื่องมือตรวจจับเป็นตัวอย่างสำหรับการเรียนรู้ในบริบท และสร้างเรียงความที่ฝ่ายตรงข้ามตรวจพบได้ยาก ในขณะที่เครื่องมือตรวจจับใช้เรียงความที่สร้างโดยฝ่ายตรงข้ามเป็นตัวอย่างสำหรับการเรียนรู้ในบริบทเพื่อเรียนรู้ที่จะตรวจจับเรียงความจาก ผู้โจมตีที่แข็งแกร่ง
การทดลองในขอบเขตของการเขียนเรียงความของนักเรียนแสดงให้เห็นว่า...
$ python -m venv env
$ source env/bin/activate
$ pip install -r requirements.txt
รันสคริปต์ใดๆ ในไดเร็กทอรี scripts
scripts/detection.sh
เป็นสคริปต์สำหรับการตรวจจับ OUTFOX และการตรวจจับพื้นฐานของเรา
scripts/attacking.sh
เป็นสคริปต์สำหรับการโจมตี OUTFOX และการโจมตีแบบถอดความพื้นฐาน
เราสร้างชุดข้อมูลของเราโดยอิงจาก Kaggle FeedBack Prize และชุดข้อมูลของเราประกอบด้วยสามชุดย่อยของเรียงความปัญหาเรียงความ เรียงความที่เขียนโดยมนุษย์ (นักเรียนพื้นเมือง) และเรียงความที่สร้างโดย LLM นักเรียนพื้นเมืองมีตั้งแต่เกรด 6 ถึงเกรด 12 ในสหรัฐอเมริกา
เราแนะนำให้ LM สามคนสร้างเรียงความ: ChatGPT( gpt-3.5-turbo-0613
), GPT-3.5( text-davinci-003
) และ FLAN-T5-XXL
เราแบ่งชุดข้อมูลออกเป็นสามส่วน: ฝึก/ตรวจสอบ/ทดสอบด้วยตัวอย่าง 14400/500/500 ตามลำดับ
นี่เป็นข้อมูลเพิ่มเติมเกี่ยวกับชื่อไฟล์ที่ประกอบด้วยชุดข้อมูลของเรา
ชื่อไฟล์ | เนื้อหา |
---|---|
(train|valid|test)_problem_statements.pkl | เรียงความคำชี้แจงปัญหาในแต่ละชุด |
(train|valid|test)_humans.pkl | บทความที่เขียนโดยมนุษย์ในแต่ละชุด |
(train|valid|test)_lms.pkl | บทความที่สร้างโดย LLM ในแต่ละชุด |
นอกจากนี้ (train|valid|test)_contexts.pkl
ยังมีข้อความแจ้งที่ใช้ในการสร้างเรียงความในแต่ละชุด เราใช้สิ่งเหล่านี้เพื่อคำนวณความน่าจะเป็นในเครื่องตรวจจับค่าผิดปกติทางสถิติ
นอกจากนี้เรายังจัดเตรียมบทความที่ถูกโจมตีโดยผู้โจมตี OUTFOX ของเราใน data/chatgpt/test/test_outfox_attacks.pkl
และบทความที่ถูกโจมตีโดย DIPPER ใน data/dipper/(chatgpt|text_davinci_003|flan_t5_xxl)/test_attacks.pkl
@InProceedings{Koike:OUTFOX:2024,
author = {Ryuto Koike and Masahiro Kaneko and Naoaki Okazaki},
title = {OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with Adversarially Generated Examples},
booktitle = {Proceedings of the 38th AAAI Conference on Artificial Intelligence},
year = {2024},
month = {February},
address = {Vancouver, Canada}
}