Extrahieren von Eingabeaufforderungen aus maßgeschneiderten Großsprachmodellen
Dieses Papier besteht aus dem Quellcode von Papier: Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models
(ARXIV).
Quellcode Erklärungen
- PEAD -Datensatz: ExtraktingPrompt/Anweisungen/Benchmark_Collections/insgesamt_data_benchmark.json
- Quellcode aller Experimente: ExtracingPrompt/
- Generalisierte Bewertung
- Vanille: ExtracingPrompt/1.run_prompt_extraction.py
- Funktionsanrufe Vergleich: ExtracingPrompt/5.funcall_comparison.py
- Skalierungsgesetze der schnellen Extraktion
- Modellgröße: ExtracingPrompt/2.Model_size_prompt_extraction_experiments.py
- Sequenzlänge: ExtracingPrompt/4. varying_sequence_length.py
- Empirische Analyse
- Überzeugende Prämisse: ExtracingPrompt/6.PPL_COMPARISON.PY
- Parallele Translation: ExtracingPrompt/7.Attention_visualize.py
- Parallele Translation: ExtracingPrompt/actid_visualize.py
- Verteidigungsstrategien
- Verteidigungsmethoden: ExtractingPrompt/Defding/ppl_high2_confuseBeginNings.py
- Leistungstropfen Experimente der Defen
- Visualisierung: ExtraktingPrompt/Defending/Defense_visualization.py
- Nahe Experimente
- Vanille -Eingabeaufforderungsextraktion: ExtracingPrompt/api_related_experiments/1.run_prompt_extraction.py
- Weiche Extraktion: ExtracingPrompt/api_related_experiments/2.soft_extraction_experiments.py
- Leistungstropfen der Verteidigung: ExtracingPrompt/api_related_experiments/3.1.drops_of_defense.py
Versuchsumgebungen
Laufen
Oder installieren Sie die folgenden Schlüsselpakete manuell:
datasets
numpy
pandas
peft
safetensors
scipy
tensorboard
tensorboardX
tiktoken
tokenizers
torch
tqdm
transformers
matplotlib
scikit-learn
thefuzz
einops
sentencepiece
Wenden Sie sich an die Autoren
Fühlen Sie sich frei, ein Problem zu eröffnen, oder senden Sie die E -Mail an [email protected]
wenn es ein Problem gibt.
Zitat:
@misc { liang2024promptsleakedunravelingprompt ,
title = { Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models } ,
author = { Zi Liang and Haibo Hu and Qingqing Ye and Yaxin Xiao and Haoyang Li } ,
year = { 2024 } ,
eprint = { 2408.02416 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL } ,
url = { https://arxiv.org/abs/2408.02416 } ,
}