prompt guard
1.0.0
PISTM GUARD是Meta的分類器模型,接受了大量攻擊訓練,能夠檢測出明顯的惡意提示(越獄)以及包含注入輸入的數據(提示注射)。通過分析,它返回以下一個或多個判決,並為每個判決分數。
該存儲庫包含一個簡化的應用程序,用於測試提示後衛。請注意,您需要一個擁抱面訪問令牌才能訪問模型。有關更詳細的文章,請參閱此博客文章。
這是及時警衛檢測到及時注射嘗試時的示例響應。
這是迅速警衛發現越獄嘗試時的示例回應。