تفتقر أجهزة كشف النصوص الحالية التي تم إنشاؤها بواسطة LLM إلى القوة ضد الهجمات: فهي تقلل من دقة الكشف عن طريق إعادة صياغة النصوص التي تم إنشاؤها بواسطة LLM ببساطة. علاوة على ذلك، هناك خطر غير مستكشف حيث قد يستغل المستخدمون الضارون LLMs لإنشاء نصوص مصممة خصيصًا لتجنب الكشف.
في هذه الورقة، نقترح OUTFOX ، وهو إطار عمل يعمل على تحسين قوة كاشفات LLM من خلال السماح لكل من الكاشف والمهاجم بأخذ مخرجات بعضهما البعض بعين الاعتبار . في هذا الإطار، يستخدم المهاجم تسميات تنبؤ الكاشف كأمثلة للتعلم في السياق ويقوم بشكل عدائي بإنشاء مقالات يصعب اكتشافها، بينما يستخدم الكاشف المقالات التي تم إنشاؤها بشكل عدائي كأمثلة للتعلم في السياق لتعلم اكتشاف المقالات من موقع ما. مهاجم قوي.
تظهر التجارب في مجال مقالات الطلاب أن ...
$ python -m venv env
$ source env/bin/activate
$ pip install -r requirements.txt
قم بتشغيل أي برنامج نصي في دليل scripts
.
scripts/detection.sh
هو برنامج نصي لاكتشاف OUTFOX واكتشافات خط الأساس.
scripts/attacking.sh
هو برنامج نصي لمهاجمة OUTFOX وهجوم إعادة الصياغة الأساسي.
لقد أنشأنا مجموعة البيانات الخاصة بنا استنادًا إلى جائزة Kaggle FeedBack، وتحتوي مجموعة البيانات الخاصة بنا على 15400 ثلاثة توائم من بيانات مشكلة المقالات، والمقالات المكتوبة بواسطة البشر (الطلاب الأصليين)، والمقالات التي تم إنشاؤها بواسطة LLM. يتراوح الطلاب الأصليون من الصف السادس إلى الصف الثاني عشر في الولايات المتحدة
نقوم بإرشاد ثلاثة LMs لإنشاء المقالات: ChatGPT( gpt-3.5-turbo-0613
)، GPT-3.5( text-davinci-003
)، و FLAN-T5-XXL
. قمنا بتقسيم مجموعة البيانات إلى ثلاثة أجزاء: التدريب/التحقق/الاختبار مع أمثلة 14400/500/500، على التوالي.
هذه معلومات تكميلية حول أسماء الملفات التي تتكون من مجموعة البيانات الخاصة بنا.
اسم الملف | محتوى |
---|---|
(train|valid|test)_problem_statements.pkl | مقالة بيانات المشكلة في كل مجموعة. |
(train|valid|test)_humans.pkl | المقالات التي كتبها الإنسان في كل مجموعة. |
(train|valid|test)_lms.pkl | المقالات التي تم إنشاؤها بواسطة LLM في كل مجموعة. |
بالإضافة إلى ذلك، يتضمن (train|valid|test)_contexts.pkl
المطالبات المستخدمة لإنشاء المقالات في كل مجموعة. نحن نستخدمها لحساب الاحتمالية في أجهزة الكشف الإحصائية الخارجية.
نحن نقدم أيضًا المقالات التي تمت مهاجمتها بواسطة مهاجم OUTFOX لدينا في data/chatgpt/test/test_outfox_attacks.pkl
والمقالات التي تمت مهاجمتها بواسطة DIPPER في data/dipper/(chatgpt|text_davinci_003|flan_t5_xxl)/test_attacks.pkl
.
@InProceedings{Koike:OUTFOX:2024,
author = {Ryuto Koike and Masahiro Kaneko and Naoaki Okazaki},
title = {OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with Adversarially Generated Examples},
booktitle = {Proceedings of the 38th AAAI Conference on Artificial Intelligence},
year = {2024},
month = {February},
address = {Vancouver, Canada}
}