La protección rápida es un modelo clasificador de Meta, entrenado en un gran corpus de ataques, capaz de detectar ambas indicaciones explícitamente maliciosas ( jailbreaks ), así como datos que contienen entradas inyectadas ( inyecciones rápidas ). Tras el análisis, devuelve uno o más de los siguientes veredictos, junto con un puntaje de confianza para cada uno:
Este repositorio contiene una aplicación de transmisión para probar la protección rápida. Tenga en cuenta que necesitará un token de acceso a la superficie de abrazos para acceder al modelo. Para obtener una redacción más detallada, vea esta publicación de blog.
Aquí hay una respuesta de muestra de una protección rápida al detectar un intento de inyección inmediata.
Aquí hay una respuesta de muestra de un indicador de guardia al detectar un intento de jailbreak.