Извлечение подсказок из индивидуальных крупных языковых моделей
Эта статья состоит из исходного кода бумаги: Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models
(ARXIV).
Исходный код объяснения
- Набор данных PEAD: ExtractingPrompt/Инструкции/Benchmark_collections/over_data_benchmark.json
- Исходный код всех экспериментов: извлечение prompt/
- Общая оценка
- Vanilla: ExtractingPrompt/1.run_prompt_extraction.py
- Сравнение призывов к функции: ExtractingPrompt/5.funcall_comparison.py
- Масштабирование законов быстрого извлечения
- Размер модели: ExtractingPrompt/2.model_size_prompt_extraction_experiments.py
- Длина последовательности: извлечение prompt/4.varying_sequence_length.py
- Эмпирический анализ
- Убедительная предпосылка: ExtractingPrompt/6.ppl_comparison.py
- Параллельная трансляция: экстрагингпромпт/7. Attention_visualize.py
- Параллельная трансляция: экстрагингпромпт/внимание_visualize.py
- Защитные стратегии
- Методы защиты: извлечение prompt/defending/ppl_high2_confusingbeginnings.py
- Производительность снижает эксперименты по защите: экстрагингпромпт/защита/2.drops_of_defing.py
- Визуализация: экстрагингпромпт/защита/защита_visualization.py
- Close-AI-эксперименты
- Извлечение приглашения ванили: ExtractingPrompt/api_related_experiments/1.run_prompt_extraction.py
- Мягкая извлечение: извлечение prompt/api_related_experiments/2.soft_extraction_experiments.py
- Производительность защиты: ExtractingPrompt/api_related_experiments/3.1.drops_of_defense.py
Экспериментальные среды
Бегать
или установите следующие пакеты клавиш вручную:
datasets
numpy
pandas
peft
safetensors
scipy
tensorboard
tensorboardX
tiktoken
tokenizers
torch
tqdm
transformers
matplotlib
scikit-learn
thefuzz
einops
sentencepiece
Свяжитесь с авторами
Не стесняйтесь открывать проблему или отправлять электронное письмо на [email protected]
если существует какая -либо проблема.
Цитата:
@misc { liang2024promptsleakedunravelingprompt ,
title = { Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models } ,
author = { Zi Liang and Haibo Hu and Qingqing Ye and Yaxin Xiao and Haoyang Li } ,
year = { 2024 } ,
eprint = { 2408.02416 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL } ,
url = { https://arxiv.org/abs/2408.02416 } ,
}