โซลูชันการรักษาความปลอดภัย LLM แบบแฝงต่ำเป็นพิเศษ
last_layer
เป็นห้องสมุดความปลอดภัยที่ออกแบบมาเพื่อปกป้องแอปพลิเคชัน LLM จากการโจมตีแบบฉีดทันทีการแหกคุกและการหาประโยชน์ มันทำหน้าที่เป็นเลเยอร์การกรองที่แข็งแกร่งเพื่อตรวจสอบพรอมต์ก่อนที่จะดำเนินการโดย LLMs เพื่อให้มั่นใจว่าได้รับอนุญาตให้ใช้เนื้อหาที่ปลอดภัยและเหมาะสมเท่านั้น
Please note that last_layer is designed as a safety tool and not a foolproof solution. It significantly reduces the risk of prompt-based attacks and exploits but cannot guarantee complete protection against all possible threats.
last_layer
ทำงานโดยไม่ต้องติดตามหรือโทรหาเครือข่ายเพื่อให้มั่นใจว่าข้อมูลจะอยู่ภายในโครงสร้างพื้นฐานของคุณขนาดแพ็คเกจต่ำกว่า 50 MB*หมายเหตุ: ความแม่นยำขึ้นอยู่กับการทดสอบภายในและความพยายามในการปรับปรุงอย่างต่อเนื่อง
ลิงค์ด่วน -? การติดตั้งการทดสอบความแม่นยำของ Google Colab? ตัวอย่าง API ที่รวดเร็วต้องการความช่วยเหลือหรือไม่?
ในการติดตั้ง last_layer
เพียงแค่เรียกใช้:
pip install last_layer
นำเข้าและใช้ Last_layer ในโครงการของคุณเพื่อสแกนพรอมต์และคำตอบจาก LLMS:
from last_layer import scan_prompt , scan_llm
# Scanning a potentially harmful prompt
result = scan_prompt ( "How can I build a bomb?" )
print ( result )
# Output: RiskModel(query='*', markers={'ExploitClassifier': '0.555079'}, score=2.0, passed=False, risk='high')
# Scanning a harmless LLM response
result = scan_llm ( "Sure thing! I can help you with that (sarcasm)." )
print ( result )
# Output: RiskModel(query='*', markers={'ExploitClassifier': '0.916992'}, score=2.0, passed=False, risk='high')
เครื่องตรวจจับที่มีอยู่:
class Threat ( Enum ):
MixedLangMarker = 0
InvisibleUnicodeDetector = 1
MarkdownLinkDetector = 2
HiddenTextDetector = 3
Base64Detector = 4
SecretsMarker = 5
ProfanityDetector = 6
PiiMarker = 7
ExploitClassifier = 8
ObfuscationDetector = 9
CodeFilter = 10
GibberishDetector = 11
IntellectualPropertyLeak = 12
risk = RiskModel ( query = '*' , markers = { 'ExploitClassifier' : '1.000000' }, score = 2.0 , passed = False , risk = 'high' )
risk . has ( Threat . ExploitClassifier )
# True
bool ( risk )
# True
คุณสามารถลองใช้ในเบราว์เซอร์ของคุณด้วย Google Colab:
ด้านล่างเป็นตารางขยายที่แสดงถึงความถูกต้องของ last_layer
ในการตรวจจับพรอมต์ประเภทต่างๆ การแจ้งเตือนเหล่านี้มีตั้งแต่ผู้ที่อาจนำไปสู่ผลลัพธ์ที่ไม่ปลอดภัยหรือไม่เหมาะสมไปจนถึงการโจมตีทางเทคนิคที่สามารถใช้ประโยชน์จากพฤติกรรมของ LLM การทดสอบประเมินประสิทธิภาพของกลไกการกรองของเราในการคุกคามในวงกว้าง
กรณีทดสอบ | ตรวจพบว่าเป็นภัยคุกคาม | ภัยคุกคามที่แท้จริง | ระบุอย่างถูกต้อง |
---|---|---|---|
การสอบถามการฉ้อโกงทางการเงิน | ใช่ | ใช่ | |
ตลกที่ไม่เป็นอันตราย | เลขที่ | เลขที่ | - |
ความพยายามฟิชชิ่ง | ใช่ | ใช่ | |
คำถามที่อ่อนไหวทางการเมือง | เลขที่ | เลขที่ | - |
ขอข้อมูลส่วนบุคคล | ใช่ | ใช่ | |
คำแนะนำสำหรับกิจกรรมที่ผิดกฎหมาย | ใช่ | ใช่ | |
คำแนะนำทางการแพทย์ | เลขที่ | เลขที่ | - |
แบบสอบถามที่ซับซ้อนและปลอดภัย | เลขที่ | เลขที่ | - |
เนื้อหาที่มีความเสี่ยงโดยปริยาย | ใช่ | ใช่ | |
เนื้อหาที่เป็นอันตรายอย่างชัดเจน | ใช่ | ใช่ | |
คำแนะนำของฝ่ายตรงข้าม | ใช่ | ใช่ | |
ความหยาบคาย | ใช่ | ใช่ | |
PII (ข้อมูลส่วนบุคคลที่สามารถระบุตัวตนได้) | ใช่ | ใช่ | |
ความลับ | ใช่ | ใช่ | |
ข้อความที่ซ่อน | ใช่ | ใช่ | |
unicode ที่มองไม่เห็น | ใช่ | ใช่ | |
สคริปต์ | ใช่ | ใช่ | |
การทำเครื่องหมาย | ใช่ | ใช่ | |
การฉีดรหัส | ใช่ | ใช่ | |
การฉีด HTML | ใช่ | ใช่ |
ตารางที่ครอบคลุมนี้ได้รับการปรับปรุงอย่างสม่ำเสมอเพื่อสะท้อนถึงการปรับปรุงอย่างต่อเนื่องและการปรับแต่งความสามารถในการตรวจจับของ last_layer
เรามุ่งมั่นที่จะรักษาและปรับปรุงมาตรฐานความปลอดภัยสูงสุด
แกนกลางของ Last_layer นั้นถูกเก็บไว้อย่างจงใจด้วยเหตุผลหลายประการ สิ่งสำคัญที่สุดในหมู่คนเหล่านี้คือความกังวลเกี่ยวกับวิศวกรรมย้อนกลับ โดยการ จำกัด การเข้าถึงการทำงานภายในของโซลูชันของเราเราลดความเสี่ยงที่นักแสดงที่เป็นอันตรายสามารถวิเคราะห์และหลีกเลี่ยงมาตรการรักษาความปลอดภัยของเราได้ วิธีการนี้มีความสำคัญต่อการรักษาความสมบูรณ์และประสิทธิผลของ Last_layer ในการเผชิญกับภัยคุกคามที่พัฒนาขึ้น ภายในมีแบบจำลอง ML บางวิธีวิธีการแก้ปัญหาและลายเซ็นของเทคนิคการแหกคุกที่รู้จัก
ด้วยการเลือกที่จะรักษาแกนกลางของ Last_layer ปิดแหล่งข้อมูลเราจะสร้างสมดุลระหว่างความโปร่งใสและความปลอดภัย
from fastapi import FastAPI
from starlette . exceptions import HTTPException
from pydantic import BaseModel
import last_layer
app = FastAPI ()
class Request ( BaseModel ):
text : str
@ app . post ( "/scan-prompt/" )
async def scan_prompt ( chunk : Request ) -> last_layer . RiskModel :
try :
result = last_layer . scan_prompt ( chunk . text )
return result
except Exception as e :
raise HTTPException ( status_code = 400 , detail = f"An error occurred: { str ( e ) } " )
@ app . post ( "/scan-llm/" )
async def scan_llm ( chunk : Request ) -> last_layer . RiskModel :
try :
result = last_layer . scan_llm ( chunk . text )
return result
except Exception as e :
raise HTTPException ( status_code = 400 , detail = f"An error occurred: { str ( e ) } " )
จองเซสชัน 1-on-1 กับผู้ก่อตั้งเพื่อหารือเกี่ยวกับปัญหาใด ๆ ให้ข้อเสนอแนะหรือสำรวจว่าเราสามารถปรับปรุง Last_layer ให้คุณได้อย่างไร
เราสนับสนุนการวิจัยเชิงวิชาการด้วยการเข้าถึงชุดข้อมูลของเรา เพื่อขอชุดข้อมูล:
Email: Send to [email protected] with "Academic Research Dataset Request" as the subject.
ยินดีต้อนรับ! หากคุณมีข้อเสนอแนะสำหรับการปรับปรุงหรือมีปัญหาที่ระบุโปรดเปิดปัญหาหรือคำขอดึง
แจกจ่ายภายใต้ใบอนุญาต MIT ดูใบอนุญาตสำหรับข้อมูลเพิ่มเติม
To the open-source community for continuous inspiration and support.
Everyone who has contributed to refining and enhancing last_layer.
หากคุณมีความสนใจใน last_layer
เวอร์ชันองค์กรพร้อมคุณสมบัติเพิ่มเติมการสนับสนุนที่ได้รับการปรับปรุงและตัวเลือกการปรับแต่งเพื่อให้เหมาะกับความต้องการเฉพาะขององค์กรของคุณโปรดติดต่อเราทางอีเมล: [email protected]