Prompt Guard est un modèle de classificateur de Meta, formé sur un grand corpus d'attaques, capable de détecter à la fois des invites explicitement malveillantes ( jailbreaks ) ainsi que des données contenant des entrées injectées ( injections rapides ). Lors de l'analyse, il renvoie un ou plusieurs des verdicts suivants, ainsi qu'un score de confiance pour chacun:
Ce référentiel contient une application Streamlit pour tester la garde de l'invite. Notez que vous aurez besoin d'un jeton d'accès HuggingFace pour accéder au modèle. Pour une rédaction plus détaillée, consultez cet article de blog.
Voici un échantillon de réponse par un garde rapide lors de la détection d'une tentative d'injection rapide.
Voici un échantillon de réponse de la garde rapide lors de la détection d'une tentative de jailbreak.