Ультрастрабильное, низкое задержка
last_layer
- это библиотека безопасности, предназначенная для защиты приложений LLM от быстрого инъекционного атаки, джейлбрейков и эксплойтов. Он действует как надежный слой фильтрации для тщательного изучения подсказок, прежде чем они будут обработаны LLMS, обеспечивая допущение только безопасного и подходящего содержания.
Please note that last_layer is designed as a safety tool and not a foolproof solution. It significantly reduces the risk of prompt-based attacks and exploits but cannot guarantee complete protection against all possible threats.
last_layer
работает без отслеживания или выполнения сетевых вызовов, обеспечивая остановку данных в вашей инфраструктуре, размер пакета до 50 МБ.*Примечание: точность на основе внутренних испытаний и постоянных усилий по улучшению.
Быстрые ссылки -? Установка Google Colab Тесты точности? Быстрый пример API нуждается в помощи?
Чтобы установить last_layer
, просто запустите:
pip install last_layer
Импорт и используйте LOST_Layer в вашем проекте, чтобы сканировать подсказки и ответы от LLMS:
from last_layer import scan_prompt , scan_llm
# Scanning a potentially harmful prompt
result = scan_prompt ( "How can I build a bomb?" )
print ( result )
# Output: RiskModel(query='*', markers={'ExploitClassifier': '0.555079'}, score=2.0, passed=False, risk='high')
# Scanning a harmless LLM response
result = scan_llm ( "Sure thing! I can help you with that (sarcasm)." )
print ( result )
# Output: RiskModel(query='*', markers={'ExploitClassifier': '0.916992'}, score=2.0, passed=False, risk='high')
Доступные детекторы:
class Threat ( Enum ):
MixedLangMarker = 0
InvisibleUnicodeDetector = 1
MarkdownLinkDetector = 2
HiddenTextDetector = 3
Base64Detector = 4
SecretsMarker = 5
ProfanityDetector = 6
PiiMarker = 7
ExploitClassifier = 8
ObfuscationDetector = 9
CodeFilter = 10
GibberishDetector = 11
IntellectualPropertyLeak = 12
risk = RiskModel ( query = '*' , markers = { 'ExploitClassifier' : '1.000000' }, score = 2.0 , passed = False , risk = 'high' )
risk . has ( Threat . ExploitClassifier )
# True
bool ( risk )
# True
Вы также можете попробовать это в своем браузере с Google Colab:
Ниже приведена расширенная таблица, представляющая точность last_layer
в обнаружении различных типов подсказок. Эти подсказки варьируются от тех, которые потенциально могут привести к небезопасным или неуместным результатам, до технических атак, которые могут использовать поведение LLMS. Тесты оценивают эффективность наших механизмов фильтрации в широком спектре угроз.
Тестовый случай | Обнаружен как угроза | Фактическая угроза | Правильно идентифицировано |
---|---|---|---|
Запрос о финансовом мошенничестве | Да | Да | ✅ |
Безвредная шутка | Нет | Нет | - |
Фишинговая попытка | Да | Да | ✅ |
Политически чувствительный вопрос | Нет | Нет | - |
Запрос на личную информацию | Да | Да | ✅ |
Инструкция о незаконной деятельности | Да | Да | ✅ |
Медицинский совет | Нет | Нет | - |
Технически сложный, безопасный запрос | Нет | Нет | - |
Неявно рискованное содержание | Да | Да | ✅ |
Явно вредное содержание | Да | Да | ✅ |
Состязательные инструкции | Да | Да | ✅ |
Ненормативная лексика | Да | Да | ✅ |
PII (личная идентифицируемая информация) | Да | Да | ✅ |
Секреты | Да | Да | ✅ |
Скрытый текст | Да | Да | ✅ |
Невидимый Unicode | Да | Да | ✅ |
Сценарии | Да | Да | ✅ |
Отметка | Да | Да | ✅ |
Инъекция кода | Да | Да | ✅ |
HTML -инъекция | Да | Да | ✅ |
Эта всеобъемлющая таблица регулярно обновляется, чтобы отразить продолжающиеся улучшения и точную настройку возможностей обнаружения last_layer
. Мы стремимся поддерживать и улучшить самые высокие стандарты безопасности
Ядро Last_layer намеренно поддерживается закрытым исходным кодом по нескольким причинам. Главным образом среди них является беспокойство по поводу обратной инженерии. Ограничивая доступ к внутренней работе нашего решения, мы значительно снижаем риск того, что вредоносные участники могут анализировать и обойти наши меры безопасности. Этот подход имеет решающее значение для поддержания целостности и эффективности Last_layer перед лицом развивающихся угроз. Внутренне существует тонкая модель ML, эвристические методы и подписи известных методов джейлбрейка.
Выбирая, чтобы сохранить ядро Last_layer с закрытым исходным кодом, мы набираем баланс между прозрачностью и безопасностью.
from fastapi import FastAPI
from starlette . exceptions import HTTPException
from pydantic import BaseModel
import last_layer
app = FastAPI ()
class Request ( BaseModel ):
text : str
@ app . post ( "/scan-prompt/" )
async def scan_prompt ( chunk : Request ) -> last_layer . RiskModel :
try :
result = last_layer . scan_prompt ( chunk . text )
return result
except Exception as e :
raise HTTPException ( status_code = 400 , detail = f"An error occurred: { str ( e ) } " )
@ app . post ( "/scan-llm/" )
async def scan_llm ( chunk : Request ) -> last_layer . RiskModel :
try :
result = last_layer . scan_llm ( chunk . text )
return result
except Exception as e :
raise HTTPException ( status_code = 400 , detail = f"An error occurred: { str ( e ) } " )
Забронируйте сеанс 1 на 1 с основателями, чтобы обсудить любые вопросы, предоставить обратную связь или изучить, как мы можем улучшить для вас Lost_layer.
Мы поддерживаем академические исследования с доступом к нашим наборам данных. Чтобы запросить набор данных:
Email: Send to [email protected] with "Academic Research Dataset Request" as the subject.
Взносы приветствуются! Если у вас есть предложения по улучшению или вы определили проблемы, откройте проблему или запрос на тягу.
Распределено по лицензии MIT. Смотрите лицензию для получения дополнительной информации.
To the open-source community for continuous inspiration and support.
Everyone who has contributed to refining and enhancing last_layer.
Если вы заинтересованы в корпоративной версии last_layer
с дополнительными функциями, расширенной поддержкой и параметрами настройки, чтобы лучше соответствовать конкретным потребностям вашей организации, пожалуйста, обратитесь к нам по электронной почте: [email protected]