Текущим детекторам текста, сгенерированным LLM, не хватает устойчивости к атакам: они снижают точность обнаружения, просто перефразируя тексты, сгенерированные LLM. Кроме того, существует неизученный риск, когда злоумышленники могут использовать LLM для создания текстов, специально предназначенных для уклонения от обнаружения.
В этой статье мы предлагаем OUTFOX — фреймворк, который повышает надежность детекторов LLM, позволяя и детектору, и злоумышленнику учитывать выходные данные друг друга . В этой структуре злоумышленник использует метки прогнозирования детектора в качестве примеров для контекстного обучения и состязательно генерирует эссе, которые труднее обнаружить, в то время как детектор использует сгенерированные состязательным способом эссе в качестве примеров для контекстного обучения, чтобы научиться обнаруживать эссе из сильный нападающий.
Эксперименты в области студенческих сочинений показывают, что...
$ python -m venv env
$ source env/bin/activate
$ pip install -r requirements.txt
Запустите любой скрипт из каталога scripts
.
scripts/detection.sh
— это сценарий для обнаружения OUTFOX и базового обнаружения.
scripts/attacking.sh
— это сценарий для нашей атаки OUTFOX и базовой атаки с перефразированием.
Мы создали наш набор данных на основе Kaggle FeedBack Prize, и наш набор данных содержит 15 400 троек формулировок задач для эссе, эссе, написанных людьми (носителями языка), и эссе, созданных LLM. В США коренные ученики обучаются с 6 по 12 классы.
Мы поручаем трем LM генерировать эссе: ChatGPT( gpt-3.5-turbo-0613
), GPT-3.5( text-davinci-003
) и FLAN-T5-XXL
. Мы разделили набор данных на три части: обучение/проверка/тестирование с 14400/500/500 примерами соответственно.
Это дополнительная информация об именах файлов, состоящих из нашего набора данных.
Имя файла | Содержание |
---|---|
(train|valid|test)_problem_statements.pkl | Постановки задач эссе в каждом наборе. |
(train|valid|test)_humans.pkl | Написанные людьми эссе в каждом наборе. |
(train|valid|test)_lms.pkl | Эссе, созданные LLM, в каждом наборе. |
Кроме того, (train|valid|test)_contexts.pkl
включает подсказки, используемые для создания эссе в каждом наборе. Мы используем их для расчета вероятности в статистических детекторах выбросов.
Мы также предоставляем атакованные эссе нашего злоумышленника OUTFOX в data/chatgpt/test/test_outfox_attacks.pkl
и атакованные эссе DIPPER в data/dipper/(chatgpt|text_davinci_003|flan_t5_xxl)/test_attacks.pkl
.
@InProceedings{Koike:OUTFOX:2024,
author = {Ryuto Koike and Masahiro Kaneko and Naoaki Okazaki},
title = {OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with Adversarially Generated Examples},
booktitle = {Proceedings of the 38th AAAI Conference on Artificial Intelligence},
year = {2024},
month = {February},
address = {Vancouver, Canada}
}