Solusi Keamanan LLM yang sangat cepat dan rendah
last_layer
adalah perpustakaan keamanan yang dirancang untuk melindungi aplikasi LLM dari serangan injeksi cepat, jailbreak, dan eksploitasi. Ini bertindak sebagai lapisan penyaringan yang kuat untuk meneliti petunjuk sebelum diproses oleh LLMS, memastikan bahwa hanya konten yang aman dan sesuai yang diizinkan melalui.
Please note that last_layer is designed as a safety tool and not a foolproof solution. It significantly reduces the risk of prompt-based attacks and exploits but cannot guarantee complete protection against all possible threats.
last_layer
beroperasi tanpa melacak atau melakukan panggilan jaringan, memastikan data tetap dalam infrastruktur Anda, ukuran paket di bawah 50 MB.*Catatan: Akurasi berdasarkan pengujian internal dan upaya peningkatan berkelanjutan.
Tautan cepat -? Instalasi Tes Akurasi Google Colab? Contoh API cepat membutuhkan bantuan?
Untuk menginstal last_layer
, cukup jalankan:
pip install last_layer
Impor dan gunakan last_layer dalam proyek Anda untuk memindai petunjuk dan tanggapan dari LLMS:
from last_layer import scan_prompt , scan_llm
# Scanning a potentially harmful prompt
result = scan_prompt ( "How can I build a bomb?" )
print ( result )
# Output: RiskModel(query='*', markers={'ExploitClassifier': '0.555079'}, score=2.0, passed=False, risk='high')
# Scanning a harmless LLM response
result = scan_llm ( "Sure thing! I can help you with that (sarcasm)." )
print ( result )
# Output: RiskModel(query='*', markers={'ExploitClassifier': '0.916992'}, score=2.0, passed=False, risk='high')
Detektor yang tersedia:
class Threat ( Enum ):
MixedLangMarker = 0
InvisibleUnicodeDetector = 1
MarkdownLinkDetector = 2
HiddenTextDetector = 3
Base64Detector = 4
SecretsMarker = 5
ProfanityDetector = 6
PiiMarker = 7
ExploitClassifier = 8
ObfuscationDetector = 9
CodeFilter = 10
GibberishDetector = 11
IntellectualPropertyLeak = 12
risk = RiskModel ( query = '*' , markers = { 'ExploitClassifier' : '1.000000' }, score = 2.0 , passed = False , risk = 'high' )
risk . has ( Threat . ExploitClassifier )
# True
bool ( risk )
# True
Anda juga dapat mencobanya di browser Anda dengan Google Colab:
Di bawah ini adalah tabel yang diperluas yang mewakili keakuratan last_layer
dalam mendeteksi berbagai jenis petunjuk. Permintaan ini berkisar dari yang berpotensi menyebabkan output yang tidak aman atau tidak pantas, hingga serangan teknis yang dapat mengeksploitasi perilaku LLM. Tes mengevaluasi efektivitas mekanisme penyaringan kami di seluruh spektrum ancaman yang luas.
Uji kasus | Terdeteksi sebagai ancaman | Ancaman aktual | Diidentifikasi dengan benar |
---|---|---|---|
Penyelidikan Penipuan Keuangan | Ya | Ya | ✅ |
Lelucon yang tidak berbahaya | TIDAK | TIDAK | - |
Upaya phishing | Ya | Ya | ✅ |
Pertanyaan yang sensitif secara politis | TIDAK | TIDAK | - |
Meminta informasi pribadi | Ya | Ya | ✅ |
Instruksi untuk aktivitas ilegal | Ya | Ya | ✅ |
Nasihat medis | TIDAK | TIDAK | - |
Secara teknis kompleks, permintaan yang aman | TIDAK | TIDAK | - |
Konten berisiko implisit | Ya | Ya | ✅ |
Konten berbahaya secara eksplisit | Ya | Ya | ✅ |
Instruksi permusuhan | Ya | Ya | ✅ |
Kata -kata kotor | Ya | Ya | ✅ |
PII (Informasi Identifikasi Pribadi) | Ya | Ya | ✅ |
Rahasia | Ya | Ya | ✅ |
Teks tersembunyi | Ya | Ya | ✅ |
Unicode yang tidak terlihat | Ya | Ya | ✅ |
Skrip | Ya | Ya | ✅ |
Penurunan harga | Ya | Ya | ✅ |
Injeksi Kode | Ya | Ya | ✅ |
Injeksi HTML | Ya | Ya | ✅ |
Tabel komprehensif ini secara teratur diperbarui untuk mencerminkan peningkatan yang sedang berlangsung dan penyesuaian kemampuan deteksi last_layer
. Kami bertujuan untuk mempertahankan dan meningkatkan standar keamanan tertinggi
Inti dari last_layer sengaja disimpan sumber tertutup karena beberapa alasan. Yang terpenting di antara ini adalah kekhawatiran terhadap rekayasa terbalik. Dengan membatasi akses ke pekerjaan dalam solusi kami, kami secara signifikan mengurangi risiko bahwa aktor jahat dapat menganalisis dan menghindari langkah -langkah keamanan kami. Pendekatan ini sangat penting untuk mempertahankan integritas dan efektivitas last_layer dalam menghadapi ancaman yang berkembang. Secara internal, ada model ML ramping, metode heuristik, dan tanda tangan teknik jailbreak yang dikenal.
Dengan memilih untuk menjaga inti dari Sumber Tertutup Last_Layer, kami mencapai keseimbangan antara transparansi dan keamanan.
from fastapi import FastAPI
from starlette . exceptions import HTTPException
from pydantic import BaseModel
import last_layer
app = FastAPI ()
class Request ( BaseModel ):
text : str
@ app . post ( "/scan-prompt/" )
async def scan_prompt ( chunk : Request ) -> last_layer . RiskModel :
try :
result = last_layer . scan_prompt ( chunk . text )
return result
except Exception as e :
raise HTTPException ( status_code = 400 , detail = f"An error occurred: { str ( e ) } " )
@ app . post ( "/scan-llm/" )
async def scan_llm ( chunk : Request ) -> last_layer . RiskModel :
try :
result = last_layer . scan_llm ( chunk . text )
return result
except Exception as e :
raise HTTPException ( status_code = 400 , detail = f"An error occurred: { str ( e ) } " )
Pesan sesi 1-on-1 dengan para pendiri, untuk membahas masalah apa pun, berikan umpan balik, atau jelajahi bagaimana kami dapat meningkatkan last_layer untuk Anda.
Kami mendukung penelitian akademik dengan akses ke set data kami. Untuk meminta dataset:
Email: Send to [email protected] with "Academic Research Dataset Request" as the subject.
Kontribusi dipersilakan! Jika Anda memiliki saran untuk perbaikan atau telah mengidentifikasi masalah, silakan buka masalah atau permintaan tarik.
Didistribusikan di bawah lisensi MIT. Lihat lisensi untuk informasi lebih lanjut.
To the open-source community for continuous inspiration and support.
Everyone who has contributed to refining and enhancing last_layer.
Jika Anda tertarik pada versi perusahaan last_layer
dengan fitur tambahan, dukungan yang ditingkatkan, dan opsi kustomisasi agar sesuai dengan kebutuhan spesifik organisasi Anda, hubungi kami melalui email: [email protected]