Exposition des vulnérabilités de jailbreak dans les applications LLM avec ARTKIT
Tests automatisés basés sur des invites pour extraire les mots de passe du système LLM du Gandalf Challenge
Lien vers l'article : https://towardsdatascience.com/exposing-jailbreak-vulnerabilities-in-llm-applications-with-artkit-d2df5f56ece8
Arrière-plan
- À mesure que les grands modèles linguistiques (LLM) sont de plus en plus adoptés dans différents secteurs et domaines, des risques de sécurité importants sont apparus et se sont intensifiés. Plusieurs de ces préoccupations clés incluent les violations de la confidentialité des données, le potentiel de biais et le risque de manipulation des informations.
- La découverte de ces risques de sécurité est cruciale pour garantir que les applications LLM restent bénéfiques dans des scénarios réels tout en préservant leur sécurité, leur efficacité et leur robustesse.
- Dans ce projet, nous explorons comment utiliser le framework open source ARTKIT pour évaluer automatiquement les vulnérabilités de sécurité des applications LLM en utilisant le populaire Gandalf Challenge comme exemple illustratif.
Fichiers
-
gandalf_challenge.ipynb
: Notebook Jupyter contenant les codes de la soluce
Références
- Dépôt GitHub officiel d'ARTKIT
- Jouez au défi Gandalf
Remerciements
- Un merci spécial à Sean Anggani, Andy Moon, Matthew Wong, Randi Griffin et Andrea Gao !