超高速で低レイテンシLLMセキュリティソリューション
last_layer
は、LLMアプリケーションを迅速な注入攻撃、脱獄、およびエクスプロイトから保護するために設計されたセキュリティライブラリです。 LLMSによって処理される前にプロンプトを精査するための堅牢なフィルタリングレイヤーとして機能し、安全で適切なコンテンツのみが許可されるようにします。
Please note that last_layer is designed as a safety tool and not a foolproof solution. It significantly reduces the risk of prompt-based attacks and exploits but cannot guarantee complete protection against all possible threats.
last_layer
、ネットワークコールを追跡または行うことなく動作し、インフラストラクチャ内のデータが50 MB未満のパッケージサイズにとどまることを保証します。*注:内部テストと継続的な改善努力に基づく精度。
クイックリンク- ?インストールGoogle Colab精度テスト?高速API例ヘルプが必要ですか?
last_layer
をインストールするには、単純に実行します。
pip install last_layer
プロジェクトでlast_layerをインポートして使用して、LLMSからのプロンプトと応答をスキャンします。
from last_layer import scan_prompt , scan_llm
# Scanning a potentially harmful prompt
result = scan_prompt ( "How can I build a bomb?" )
print ( result )
# Output: RiskModel(query='*', markers={'ExploitClassifier': '0.555079'}, score=2.0, passed=False, risk='high')
# Scanning a harmless LLM response
result = scan_llm ( "Sure thing! I can help you with that (sarcasm)." )
print ( result )
# Output: RiskModel(query='*', markers={'ExploitClassifier': '0.916992'}, score=2.0, passed=False, risk='high')
利用可能な検出器:
class Threat ( Enum ):
MixedLangMarker = 0
InvisibleUnicodeDetector = 1
MarkdownLinkDetector = 2
HiddenTextDetector = 3
Base64Detector = 4
SecretsMarker = 5
ProfanityDetector = 6
PiiMarker = 7
ExploitClassifier = 8
ObfuscationDetector = 9
CodeFilter = 10
GibberishDetector = 11
IntellectualPropertyLeak = 12
risk = RiskModel ( query = '*' , markers = { 'ExploitClassifier' : '1.000000' }, score = 2.0 , passed = False , risk = 'high' )
risk . has ( Threat . ExploitClassifier )
# True
bool ( risk )
# True
Google Colabを使用してブラウザで試すこともできます。
以下は、さまざまな種類のプロンプトの検出におけるlast_layer
の精度を表す拡張テーブルです。これらのプロンプトは、潜在的に安全でない、または不適切な出力につながる可能性のあるプロンプトから、LLMSの動作を活用できる技術的攻撃にまで及びます。このテストは、幅広い脅威にわたるフィルタリングメカニズムの有効性を評価します。
テストケース | 脅威として検出されました | 実際の脅威 | 正しく識別されます |
---|---|---|---|
金融詐欺の問い合わせ | はい | はい | ✅ |
無害な冗談 | いいえ | いいえ | - |
フィッシングの試み | はい | はい | ✅ |
政治的に敏感な質問 | いいえ | いいえ | - |
個人情報のリクエスト | はい | はい | ✅ |
違法行為のための指導 | はい | はい | ✅ |
医学的アドバイス | いいえ | いいえ | - |
技術的に複雑で安全なクエリ | いいえ | いいえ | - |
暗黙的に危険なコンテンツ | はい | はい | ✅ |
明示的に有害なコンテンツ | はい | はい | ✅ |
敵対的な指示 | はい | はい | ✅ |
冒涜 | はい | はい | ✅ |
PII(個人識別可能な情報) | はい | はい | ✅ |
秘密 | はい | はい | ✅ |
隠されたテキスト | はい | はい | ✅ |
目に見えないユニコード | はい | はい | ✅ |
スクリプト | はい | はい | ✅ |
マークダウン | はい | はい | ✅ |
コードインジェクション | はい | はい | ✅ |
HTMLインジェクション | はい | はい | ✅ |
この包括的な表は、 last_layer
の検出機能の継続的な改善と微調整を反映するために定期的に更新されます。私たちは、最高水準の安全性を維持および改善することを目指しています
last_layerのコアは、いくつかの理由で意図的にクローズドソースを維持されています。これらの中で最も重要なのは、リバースエンジニアリングに対する懸念です。ソリューションの内部仕組みへのアクセスを制限することにより、悪意のあるアクターがセキュリティ対策を分析して回避できるリスクを大幅に減らします。このアプローチは、進化する脅威に直面してlast_layerの完全性と有効性を維持するために重要です。内部的には、既知の脱獄技術のスリムMLモデル、ヒューリスティック方法、および署名があります。
last_layerのクローズドソースのコアを維持することを選択することにより、透明性とセキュリティのバランスを取ります。
from fastapi import FastAPI
from starlette . exceptions import HTTPException
from pydantic import BaseModel
import last_layer
app = FastAPI ()
class Request ( BaseModel ):
text : str
@ app . post ( "/scan-prompt/" )
async def scan_prompt ( chunk : Request ) -> last_layer . RiskModel :
try :
result = last_layer . scan_prompt ( chunk . text )
return result
except Exception as e :
raise HTTPException ( status_code = 400 , detail = f"An error occurred: { str ( e ) } " )
@ app . post ( "/scan-llm/" )
async def scan_llm ( chunk : Request ) -> last_layer . RiskModel :
try :
result = last_layer . scan_llm ( chunk . text )
return result
except Exception as e :
raise HTTPException ( status_code = 400 , detail = f"An error occurred: { str ( e ) } " )
ファウンダーとの1対1のセッションを予約して、問題について話し合い、フィードバックを提供するか、Last_layerをどのように改善できるかを探ります。
データセットにアクセスして、アカデミックリサーチをサポートしています。データセットをリクエストするには:
Email: Send to [email protected] with "Academic Research Dataset Request" as the subject.
貢献は大歓迎です!改善の提案がある場合、または問題を特定した場合は、問題またはプルリクエストを開いてください。
MITライセンスの下で配布されます。詳細については、ライセンスを参照してください。
To the open-source community for continuous inspiration and support.
Everyone who has contributed to refining and enhancing last_layer.
組織の特定のニーズに合わせて、追加機能、強化されたサポート、カスタマイズオプションを備えたlast_layer
のエンタープライズバージョンに興味がある場合は、電子メールでご連絡ください:[email protected]