Extracción de indicaciones de modelos de idiomas grandes personalizados
Este documento consiste en el código fuente de papel: Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models
(ARXIV).
Explicaciones del código fuente
- DataSet de Pead: ExtractingPrompt/Instrucciones/Benchmark_Collections/General_Data_Benchmark.json
- Código fuente de todos los experimentos: ExtractingPrompt/
- Evaluación generalizada
- Vanilla: ExtractingPrompt/1.run_promppt_extraction.py
- Comparación de llamamientos de funciones: ExtractingPrompt/5.Funcall_comparison.py
- Leyes de escala de extracción rápida
- Tamaño del modelo: ExtractingPrompt/2.Model_Size_Prompt_Extraction_Experiments.py
- Longitud de secuencia: ExtractingPrompt/4.varying_sequence_length.py
- Análisis empírico
- Premisa convincente: ExtractingPrompt/6.PPL_Comparison.py
- Traducción paralela: ExtractingPrompt/7.Attention_Visualize.py
- Traducción paralela: ExtractingPrompt/Attork_Visualize.py
- Estrategias de defensa
- Métodos de defensa: ExtractingPrompt/Defending/PPL_HIGH2_ConfusingBeginnings.py
- El rendimiento deja los experimentos de la defensa: ExtractingPrompt/Defending/2.drops_of_defending.py
- Visualización: ExtractingPrompt/Defending/Defense_Visualization.py
- Experimentos cercanos a la AI
- Extracción de indicación de vainilla: ExtractingPrompt/API_Related_Experiments/1.Run_Prompt_Extraction.py
- Extracción suave: ExtractingPrompt/API_Related_Experiments/2.Soft_Extraction_Experiments.py
- caídas de rendimiento de la defensa: ExtractingPrompt/API_Related_Experiments/3.1.drops_of_defense.py
Entornos experimentales
Correr
o instale los siguientes paquetes de clave manualmente:
datasets
numpy
pandas
peft
safetensors
scipy
tensorboard
tensorboardX
tiktoken
tokenizers
torch
tqdm
transformers
matplotlib
scikit-learn
thefuzz
einops
sentencepiece
Póngase en contacto con los autores
No dude en abrir un problema o enviar el correo electrónico a [email protected]
si existe algún problema.
Citación:
@misc { liang2024promptsleakedunravelingprompt ,
title = { Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models } ,
author = { Zi Liang and Haibo Hu and Qingqing Ye and Yaxin Xiao and Haoyang Li } ,
year = { 2024 } ,
eprint = { 2408.02416 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL } ,
url = { https://arxiv.org/abs/2408.02416 } ,
}