Ultraschnelle LLM-Sicherheitslösung mit niedriger Latenz LLM
last_layer
ist eine Sicherheitsbibliothek, mit der LLM -Anwendungen vor Einspritzangriffen, Jailbreaks und Heldentaten geschützt werden sollen. Es fungiert als robuste Filterebene, um die Eingabeaufforderungen zu überprüfen, bevor sie von LLMs verarbeitet werden, um sicherzustellen, dass nur sichere und angemessene Inhalte zulässig sind.
Please note that last_layer is designed as a safety tool and not a foolproof solution. It significantly reduces the risk of prompt-based attacks and exploits but cannot guarantee complete protection against all possible threats.
last_layer
, ohne nach Verfolgung oder Tätigen von Netzwerkanrufen zu erstellen, um sicherzustellen, dass Daten in Ihrer Infrastruktur und Paketgröße weniger als 50 MB bleiben.*Hinweis: Genauigkeit basierend auf internen Tests und kontinuierlichen Verbesserungsbemühungen.
Schnelle Links -? Installation Google Colab -Genauigkeitstests? Schnelles API -Beispiel brauchen Hilfe?
Um last_layer
zu installieren, führen Sie einfach aus:
pip install last_layer
Importieren und verwenden Sie Last_Layer in Ihrem Projekt, um Eingabeaufforderungen und Antworten von LLMs zu scannen:
from last_layer import scan_prompt , scan_llm
# Scanning a potentially harmful prompt
result = scan_prompt ( "How can I build a bomb?" )
print ( result )
# Output: RiskModel(query='*', markers={'ExploitClassifier': '0.555079'}, score=2.0, passed=False, risk='high')
# Scanning a harmless LLM response
result = scan_llm ( "Sure thing! I can help you with that (sarcasm)." )
print ( result )
# Output: RiskModel(query='*', markers={'ExploitClassifier': '0.916992'}, score=2.0, passed=False, risk='high')
verfügbare Detektoren:
class Threat ( Enum ):
MixedLangMarker = 0
InvisibleUnicodeDetector = 1
MarkdownLinkDetector = 2
HiddenTextDetector = 3
Base64Detector = 4
SecretsMarker = 5
ProfanityDetector = 6
PiiMarker = 7
ExploitClassifier = 8
ObfuscationDetector = 9
CodeFilter = 10
GibberishDetector = 11
IntellectualPropertyLeak = 12
risk = RiskModel ( query = '*' , markers = { 'ExploitClassifier' : '1.000000' }, score = 2.0 , passed = False , risk = 'high' )
risk . has ( Threat . ExploitClassifier )
# True
bool ( risk )
# True
Sie können es auch in Ihrem Browser mit Google Colab ausprobieren:
Im Folgenden finden Sie eine erweiterte Tabelle, die die Genauigkeit von last_layer
darstellt, um verschiedene Arten von Eingabeaufforderungen zu erkennen. Diese Eingabeaufforderungen reichen von denen, die möglicherweise zu unsicheren oder unangemessenen Outputs führen könnten, bis hin zu technischen Angriffen, die das Verhalten von LLMs ausnutzen könnten. Die Tests bewerten die Wirksamkeit unserer Filtermechanismen über ein breites Spektrum von Bedrohungen.
Testfall | Als Bedrohung erkannt | Tatsächliche Bedrohung | Korrekt identifiziert |
---|---|---|---|
Finanzbetrugsanfrage | Ja | Ja | ✅ |
Harmloser Witz | NEIN | NEIN | - - |
Phishing -Versuch | Ja | Ja | ✅ |
Politisch sensible Frage | NEIN | NEIN | - - |
Anfrage nach persönlichen Informationen | Ja | Ja | ✅ |
Anweisung für illegale Aktivitäten | Ja | Ja | ✅ |
Medizinischer Beratung | NEIN | NEIN | - - |
Technisch komplexe, sichere Abfrage | NEIN | NEIN | - - |
Implizit riskantes Inhalt | Ja | Ja | ✅ |
Explizit schädlicher Inhalt | Ja | Ja | ✅ |
Gegentliche Anweisungen | Ja | Ja | ✅ |
Profanität | Ja | Ja | ✅ |
PII (persönliche identifizierbare Informationen) | Ja | Ja | ✅ |
Geheimnisse | Ja | Ja | ✅ |
Versteckter Text | Ja | Ja | ✅ |
Unsichtbarer Unicode | Ja | Ja | ✅ |
Skripte | Ja | Ja | ✅ |
Markdown | Ja | Ja | ✅ |
Codeinjektion | Ja | Ja | ✅ |
HTML -Injektion | Ja | Ja | ✅ |
Diese umfassende Tabelle wird regelmäßig aktualisiert, um die anhaltenden Verbesserungen und die Feinabstimmung der Erkennungsfunktionen von last_layer
widerzuspiegeln. Wir wollen die höchsten Sicherheitsstandards aufrechterhalten und verbessern
Der Kern von last_layer wird aus mehreren Gründen absichtlich geschlossen gehalten. In erster Linie ist die Besorgnis über Reverse Engineering. Durch die Begrenzung des Zugangs zu den Innenarbeit unserer Lösung verringern wir das Risiko, dass böswillige Akteure unsere Sicherheitsmaßnahmen analysieren und umgehen können. Dieser Ansatz ist entscheidend für die Aufrechterhaltung der Integrität und Wirksamkeit von last_layer angesichts der sich entwickelnden Bedrohungen. Intern gibt es ein schlankes ML -Modell, heuristische Methoden und Unterschriften bekannter Jailbreak -Techniken.
Indem wir den Kern von Last_Layer Closed-Source beibehalten, stecken wir ein Gleichgewicht zwischen Transparenz und Sicherheit.
from fastapi import FastAPI
from starlette . exceptions import HTTPException
from pydantic import BaseModel
import last_layer
app = FastAPI ()
class Request ( BaseModel ):
text : str
@ app . post ( "/scan-prompt/" )
async def scan_prompt ( chunk : Request ) -> last_layer . RiskModel :
try :
result = last_layer . scan_prompt ( chunk . text )
return result
except Exception as e :
raise HTTPException ( status_code = 400 , detail = f"An error occurred: { str ( e ) } " )
@ app . post ( "/scan-llm/" )
async def scan_llm ( chunk : Request ) -> last_layer . RiskModel :
try :
result = last_layer . scan_llm ( chunk . text )
return result
except Exception as e :
raise HTTPException ( status_code = 400 , detail = f"An error occurred: { str ( e ) } " )
Buchen Sie eine 1-gegen-1-Sitzung mit den Gründern, um Probleme zu besprechen, Feedback zu geben oder zu untersuchen, wie wir Last_Layer für Sie verbessern können.
Wir unterstützen die akademische Forschung mit Zugriff auf unsere Datensätze. Datensatz anfordern:
Email: Send to [email protected] with "Academic Research Dataset Request" as the subject.
Beiträge sind willkommen! Wenn Sie Vorschläge für Verbesserungen haben oder Probleme identifiziert haben, öffnen Sie bitte ein Problem oder eine Pull -Anfrage.
Unter der MIT -Lizenz verteilt. Weitere Informationen finden Sie unter Lizenz.
To the open-source community for continuous inspiration and support.
Everyone who has contributed to refining and enhancing last_layer.
Wenn Sie an einer Enterprise -Version von last_layer
mit zusätzlichen Funktionen, verbesserten Support und Anpassungsoptionen interessiert sind, um den spezifischen Anforderungen Ihrer Organisation besser zu erfüllen