تنزيل llm confidentiality - تنزيل رمز مصدر llm confidentiality

llm confidentiality

كود الذكاء الاصطناعي

1.0.0

تنزيل

همسات في الجهاز: السرية في أنظمة LLM المتكاملة

هذا هو مستودع التعليمات البرمجية المصاحب للوهلة الورقية لدينا في الجهاز: السرية في الأنظمة المتكاملة LLM.

يتم زيادة نماذج اللغة الكبيرة (LLMS) بشكل متزايد باستخدام الأدوات الخارجية والخدمات التجارية في أنظمة LLM المتكاملة . في حين أن هذه الواجهات يمكن أن تعزز بشكل كبير قدرات النماذج ، فإنها تقدم أيضًا سطح هجوم جديد. على سبيل المثال ، يمكن أن تستغل التكاملات المعالجة النموذج وتسوية البيانات الحساسة التي يتم الوصول إليها من خلال واجهات أخرى. بينما ركز العمل السابق في المقام الأول على الهجمات التي تستهدف محاذاة النموذج أو تسرب بيانات التدريب ، فإن أمان البيانات المتوفرة فقط أثناء الاستدلال قد نجا من التدقيق. في هذا العمل ، نوضح نقاط الضعف المرتبطة بالمكونات الخارجية ونقدم نهجًا منهجيًا لتقييم مخاطر السرية في الأنظمة المتكاملة LLM. نحدد العديد من سيناريوهات الهجوم المحددة الفريدة لهذه الأنظمة وإضفاء الطابع الرسمي على هذه الأنظمة إلى إطار عمل للأدوات المصمم لقياس قدرة النموذج على حماية المعلومات الحساسة. يتيح لنا هذا الإطار تقييم ضعف النموذج لهجمات السرية. توضح النتائج التي توصلنا إليها أن جميع النماذج التي تم فحصها معرضة للغاية للهجمات ، مع زيادة المخاطر بشكل كبير عند استخدام النماذج مع أدوات خارجية.

إذا كنت ترغب في الاستشهاد بعملنا ، فيرجى استخدام إدخال Bibtex هذا.

تم تطوير هذا الإطار لدراسة سرية نماذج اللغة الكبيرة (LLMS) في الأنظمة المتكاملة. يحتوي الإطار على عدة ميزات:

مجموعة من الهجمات ضد LLMS ، حيث لا يُسمح لـ LLM بتسرب مفتاح سري -> القفز إلى القسم
مجموعة من الدفاعات ضد الهجمات المذكورة أعلاه -> القفز إلى القسم
إمكانية اختبار سرية LLM في سيناريوهات استخدام الأدوات الوهمية وكذلك مع الهجمات والدفاعات المذكورة -> القفز إلى القسم
اختبار LLMS في Scenarios أدوات العالم الحقيقي باستخدام Langchains Google Drive و Google Mail Integrations-> القفز إلى القسم
إنشاء مطالبات نظام محسّن لتوجيه LLM بأمان للحفاظ على مفتاح سري آمن -> القفز إلى القسم
يمكن العثور على تعليمات الاستنساخ في نهاية هذا القسم -> القفز إلى القسم

تحذير

يتم دعم Aceleration الأجهزة بالكامل فقط لآلات CUDA التي تعمل على تشغيل Linux. يجب أن يعمل النواب على MacOS إلى حد ما ولكن النوافذ مع CUDA قد تواجه بعض المشكلات.

يثبت

قبل تشغيل الرمز ، قم بتثبيت المتطلبات:

 python -m pip install --upgrade -r requirements.txt

إذا كنت ترغب في استخدام النماذج التي تستضيفها Openai أو HuggingFace ، قم بإنشاء ملف key.txt يحتوي على مفتاح API Openai الخاص بك بالإضافة إلى ملف hf_token.txt يحتوي مشروع.

في بعض الأحيان ، قد يكون من الضروري تسجيل الدخول إلى حساب Luggingface الخاص بك عبر CLI:

 git config --global credential.helper store
huggingface-cli login

التدريب الموزع

جميع البرامج النصية قادرة على العمل على وحدات معالجة الرسومات/وحدات المعالجة المركزية متعددة باستخدام مكتبة تسريع. للقيام بذلك ، قم بالتشغيل:

 accelerate config

لتكوين قدرات التدريب الموزعة لنظامك وبدء البرامج النصية مع:

 accelerate launch [parameters] <script.py> [script parameters]

الهجمات والدفاعات

مثال الاستخدام

 python attack . py - - strategy "tools" - - scenario "CalendarWithCloud" - - attacks "payload_splitting" "obfuscation" - - defense "xml_tagging" - - iterations 15 - - llm_type "llama3-70b" - - temperature 0.7 - - device cuda - - prompt_format "react"

سيقوم بتشغيل الهجمات payload_splitting obfuscation ضد LLM llama3-70b في السيناريو CalendarWithCloud باستخدام الدفاع xml_tagging لمدة 15 تكرار مع درجة حرارة 0.7 على جهاز CUDA باستخدام تنسيق مطالبة React في الأدوات المدمجة.

الحجج

دعوى	يكتب	القيمة الافتراضية	وصف
`-h, --help`	-	-	أظهر رسالة المساعدة والخروج هذه
`-a, --attacks`	قائمة [str]	`payload_splitting`	يحدد الهجمات التي سيتم استخدامها ضد LLM
`-d, --defense`	شارع	`None`	يحدد الدفاع عن LLM
`-llm, --llm_type`	شارع	`gpt-3.5-turbo`	يحدد نوع الخصم
`-le, --llm_guessing`	بول	`False`	يحدد ما إذا كان يتم استخدام LLM ثانية لتخمين المفتاح السري خارج الاستجابة العادية أم لا
`-t, --temperature`	يطفو	`0.0`	يحدد درجة حرارة LLM للتحكم في العشوائية
`-cp, --create_prompt_dataset`	بول	`False`	يحدد ما إذا كان ينبغي إنشاء مجموعة بيانات جديدة من مطالبات النظام المحسّن
`-cr, --create_response_dataset`	بول	`False`	يحدد ما إذا كان ينبغي إنشاء مجموعة بيانات جديدة من ردود التسرب السري
`-i, --iterations`	int	`10`	يحدد عدد التكرارات للهجوم
`-n, --name_suffix`	شارع	`""`	يحدد لاحقة اسم لتحميل النماذج المخصصة. نظرًا لأنه لا يُسمح لسلاسل معلمات الوسيطة بالبدء بـ "-" الرموز ، الأولى "-" ستتم إضافة المحللون تلقائيًا تلقائيًا
`-s, --strategy`	شارع	`None`	يحدد استراتيجية الهجوم (سواء كان استخدام الهجمات العادية أو هجمات `tools` )
`-sc, --scenario`	شارع	`all`	يحدد السيناريو للهجمات القائمة على الأدوات
`-dx, --device`	شارع	`cpu`	يحدد الجهاز الذي يتم استخدامه لتشغيل البرنامج النصي (وحدة المعالجة المركزية ، CUDA ، أو النواب)
`-pf, --prompt_format`	شارع	`react`	يحدد ما إذا كان React أو تنسيق المطالبة المتمثلة في الأدوات يستخدم للعوامل. (رد فعل أو تمتع بأدوات)
`-ds, --disable_safeguards`	بول	`False`	تعطيل نظام ضمانات موجهة النظام لاستراتيجية الأداة
اتفاقيات التسمية للنماذج هي كما يلي:

 < model_name > - < param_count > - < robustness > - < attack_suffix > - < custom_suffix >

على سبيل المثال:

 llama2 - 7 b - robust - prompt_injection - 0613

إذا كنت ترغب في تشغيل الهجمات على طراز بادئة مع لاحقة مخصصة (على سبيل المثال ، 1000epochs ) ، فسيتعين عليك تحديد الحجج التي يتبعها:

... - - model_name llama2 - 7 b - prefix - - name_suffix 1000 epochs ...

نماذج لغة كبيرة مدعومة

نموذج	محدد المعلمة	وصلة	حساب مثيل
GPT-4 (O1 ، O1-Mini ، Turbo)	`gpt-4o` / `gpt-4o-mini` / `gpt-4-turbo`	وصلة	Openai API
لاما 2	`llama2-7b` / `llama2-13b` / `llama2-70b`	وصلة	الاستدلال المحلي
لاما 2 تصلب	`llama2-7b-robust` / `llama2-13b-robust` / `llama2-70b-robust`	وصلة	الاستدلال المحلي
Qwen 2.5	`qwen2.5-72b`	وصلة	الاستدلال المحلي (أولاً: `ollama pull qwen2.5:72b` )
لاما 3.1	`llama3-8b` / `llama3-70b`	وصلة	الاستدلال المحلي (أولاً: `ollama pull llama3.1/llama3.1:70b/llama3.1:405b` )
لاما 3.2	`llama3-1b` / `llama3-3b`	وصلة	الاستدلال المحلي (أولاً: `ollama pull llama3.2/llama3.2:1b` )
لاما 3.3	`llama3.3-70b`	وصلة	الاستدلال المحلي (أولاً: `ollama pull llama3.3/llama3.3:70b` )
انعكاس لاما	`reflection-llama`	وصلة	الاستدلال المحلي (أولاً: `ollama pull reflection` )
فيكونا	`vicuna-7b` / `vicuna-13b` / `vicuna-33b`	وصلة	الاستدلال المحلي
مستقرة (2)	`beluga-7b` / `beluga-13b` / `beluga2-70b`	وصلة	الاستدلال المحلي
orca 2	`orca2-7b` / `orca2-13b` / `orca2-70b`	وصلة	الاستدلال المحلي
جيما	`gemma-2b` / `gemma-7b`	وصلة	الاستدلال المحلي
جيما 2	`gemma2-9b` / `gemma2-27b`	وصلة	الاستدلال المحلي (أولاً: `ollama pull gemma2/gemma2:27b` )
فاي 3	`phi3-3b` / `phi3-14b`	وصلة	الاستدلال المحلي (أولاً: `ollama pull phi3:mini/phi3:medium` )

(يجب أولاً إنشاء نماذج LLAMA ذات الصبغة أو القوية/الصلبة باستخدام البرنامج النصي finetuning.py ، انظر أدناه)

الهجمات والدفاعات المدعومة

الهجمات		الدفاعات
اسم	المحدد	اسم	المحدد
تقسيم الحمولة	`payload_splitting`	حاوية تسلسل عشوائي	`seq_enclosure`
التشويش	`obfuscation`	علامات XML	`xml_tagging`
جيلبريك	`jailbreak`	الدفاع الإرشادي/التصفية	`heuristic_defense`
ترجمة	`translation`	الدفاع شطيرة	`sandwiching`
attml سوء المعاملة	`chatml_abuse`	تقييم LLM	`llm_eval`
إخفاء	`masking`	اكتشاف الحيرة	`ppl_detection`
typoglycemia	`typoglycemia`	orderguard	`prompt_guard`
لاحقة الخصومة	`advs_suffix`
حقن البادئة	`prefix_injection`
قمع الرفض	`refusal_suppression`
السياق تجاهل	`context_ignoring`
إنهاء السياق	`context_termination`
السياق تبديل الفواصل	`context_switching_separators`
القليل من اللقطة	`few_shot`
القرصنة المعرفية	`cognitive_hacking`
الدردشة الأساسية	`base_chat`

يتكون هجوم base_chat من أسئلة عادية لاختبار النموذج يتسرب سياقه ومعلومات سرية حتى بدون هجوم حقيقي.

الكون المثالى

يغطي هذا القسم خيارات Llama Finetuning المحتملة. نستخدم PEFT ، الذي يعتمد على هذه الورقة.

يثبت

بالإضافة إلى تشغيل الإعداد أعلاه

accelerate config

لتكوين قدرات التدريب الموزعة لنظامك. و

wandb login

مع مفتاح واجهة برمجة تطبيقات WANDB لتمكين تسجيل عملية التذوق.

المعلمة فعالة في حالة عدم الكفاءة لصياغة LLMs ضد الهجمات أو إنشاء مطالبات نظام محسّنة

يتمثل الخيار الأول في Finetuning على مجموعة بيانات تتكون من مطالبات النظام بتوجيه LLM بأمان للحفاظ على آمنة مفتاح سري. يتمثل الخيار الثاني في التغذية (باستخدام خيار --train_robust ) في استخدام مطالبات النظام والمطالبات العدائية لتصلب النموذج مقابل هجمات الحقن السريع.

الاستخدام

 python finetuning . py [ - h ] [ - llm | - - llm_type LLM_NAME ] [ - i | - - iterations ITERATIONS ] [ - a | - - attacks ATTACKS_LIST ] [ - n | - - name_suffix NAME_SUFFIX ]

الحجج

دعوى	يكتب	القيمة الافتراضية	وصف
`-h, --help`	-	-	أظهر رسالة المساعدة والخروج هذه
`-llm, --llm_type`	شارع	`llama3-8b`	يحدد نوع LLM إلى Finetune
`-i, --iterations`	int	`10000`	يحدد عدد التكرارات الخاصة بـ Finetuning
`-advs, --advs_train`	بول	`False`	يستخدم التدريب العدواني لتصلب LLM المحروم
`-a, --attacks`	قائمة [str]	`payload_splitting`	يحدد الهجمات التي سيتم استخدامها لتصلب LLM أثناء التحويل. فقط له تأثير إذا تم تعيين `--train_robust` على صحيح. للاطلاع على الهجمات المدعومة ، انظر القسم السابق
`-n, --name_suffix`	شارع	`""`	يحدد لاحقة لاسم النموذج المحدد

نماذج لغة كبيرة مدعومة

حاليًا يتم دعم نماذج LLAMA فقط ( llama2-7/13/70b / llama3-8/70b ).

إنشاء مجموعات بيانات موجه النظام

ما عليك سوى تشغيل البرنامج النصي generate_dataset.py لإنشاء مطالبات نظام جديدة كملف JSON باستخدام LLMS.

الحجج

دعوى	يكتب	القيمة الافتراضية	وصف
`-h, --help`	-	-	أظهر رسالة المساعدة والخروج هذه
`-llm, --llm_type`	شارع	`llama3-70b`	يحدد LLM المستخدمة لإنشاء مجموعة بيانات مطالبة النظام
`-n, --name_suffix`	شارع	`""`	يحدد لاحقة لاسم النموذج إذا كنت تريد استخدام نموذج مخصص
`-ds, --dataset_size`	int	`1000`	حجم مجموعة بيانات موجه النظام الناتجة

سيناريوهات أداة العالم الحقيقي

لاختبار سرية LLMS في سيناريوهات الأدوات في العالم الحقيقي ، نوفر إمكانية اختبار LLMs في عمليات تكامل Google Drive و Google Mail. للقيام بذلك ، قم بتشغيل البرنامج النصي /various_scripts/llm_mail_test.py باستخدام بيانات اعتماد Google API الخاصة بك.

استنساخ

تحذير

يمكن أن يكون التقييم الذي يتم تقييمه على LLM أمرًا صعبًا للغاية من حيث GPU VRAM والوقت.

ملحوظة

يمكن أن تختلف النتائج قليلاً من الركض إلى الجري. يقوم Ollama بتحديث معظم LLMs باستمرار ، وبالتالي فإن سلوكهم عرضة للتغيير. أيضا ، حتى مع أدنى درجة حرارة LLMs تميل إلى التقلب قليلاً في Behvior بسبب العشوائية الداخلية.

لعبة الأساس السرية مفتاح

سيطرح أسئلة LLM الحميدة للتحقق من تسرب السر حتى بدون هجمات
python attack.py --llm_type <model_specifier> --strategy secret-key --attacks chat_base --defenses None --iterations 100 --device cuda

الهجمات من أجل لعبة مفتاح Secret

سوف تدير جميع الهجمات ضد LLM دون دفاعات. سيتم تقسيم التكرارات بالتساوي إلى الهجمات المستخدمة. لذلك بناءً على عدد الهجمات المستخدمة ، يجب تكييف عدد التكرارات. (على سبيل المثال ، لـ 14 هجومًا مع 100 تكرار حدد معلمة التكرارات إلى 1400)
python attack.py --llm_type <model_specifier> --strategy secret-key --attacks all --defenses None --iterations 100 --device cuda

الهجمات مع دفاعات لعبة المفتاح السري

سوف تدير جميع الهجمات ضد LLM مع جميع الدفاعات
python attack.py --llm_type <model_specifier> --strategy secret-key --attacks all --defenses all --iterations 100 --device cuda

أداة خط الأساس المسكن

هل ستوجه موجه النظام LLM بمفتاح سري وتعليمات لعدم تسرب المفتاح السري متبوعًا بطلبات بسيطة لطباعة المفتاح السري
python attack.py --llm_type <model_specifier> --strategy tools --scenario all --attacks base_attack --defenses None --iterations 100 --device cuda

تقييم جميع أدوات المسند مع رد الفعل

سيقوم بتشغيل جميع أدوات المسند بدون هجمات ودفاعات باستخدام إطار React
python attack.py --llm_type <model_specifier> --strategy tools --scenario all --attacks identity --defenses None --iterations 100 --prompt_format ReAct --device cuda

تقييم جميع أدوات المسند مع النماذج التي يتم ضبطها

سيقوم بتشغيل جميع أدوات المسند بدون هجمات ودفاعات باستخدام إطار React
python attack.py --llm_type <model_specifier> --strategy tools --scenario all --attacks identity --defenses None --iterations 100 --prompt_format tool-finetuned --device cuda

تقييم جميع النماذج التي تم ضبطها في جميع السيناريوهات مع هجمات إضافية

سيقوم بتشغيل جميع أدوات المسند بدون هجمات ودفاعات باستخدام إطار React
python attack.py --llm_type <model_specifier> --strategy tools --scenario all --attacks all --defenses None --iterations 100 --prompt_format tool-finetuned --device cuda

تقييم جميع النماذج التي تم ضبطها في جميع السيناريوهات مع هجمات ودفاعات إضافية

سيقوم بتشغيل جميع أدوات المسند بدون هجمات ودفاعات باستخدام إطار React
python attack.py --llm_type <model_specifier> --strategy tools --scenario all --attacks all --defenses all --iterations 100 --prompt_format tool-finetuned --device cuda

اقتباس

إذا كنت ترغب في الاستشهاد بعملنا ، يرجى استخدام إدخال Bibtex التالي:

 @article { evertz-24-whispers ,
	title    =  { {Whispers in the Machine: Confidentiality in LLM-integrated Systems} } , 
	author   =  { Jonathan Evertz and Merlin Chlosta and Lea Schönherr and Thorsten Eisenhofer } ,
	year     =  { 2024 } ,
	journal  =  { Computing Research Repository (CoRR) }
}

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-02-14
الحجم 910.11KB
من Github

تطبيقات ذات صلة

TensorRT LLM

2024-11-10
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
node telegram bot api

كود الذكاء الاصطناعي

v0.50.0
typebot.io

كود الذكاء الاصطناعي

v3.1.2
python wechaty getting started

كود الذكاء الاصطناعي

1.0.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
wp functions

فئات أخرى

1.0.0
termwind

فئات أخرى

v2.3.0

أخبار ذات صلة الكل