Meta a récemment publié Prompt-Guard-86M, un modèle d'apprentissage automatique conçu pour se défendre contre les attaques par injection rapide, mais le modèle lui-même s'est rapidement révélé présenter de graves vulnérabilités de sécurité. Les attaques par injection d'indices consistent à inciter des modèles de langage étendus (LLM) à violer les contraintes de sécurité ou à produire un comportement inapproprié via des entrées soigneusement conçues. Prompt-Guard-86M est destiné à filtrer ces invites nuisibles. Cependant, les chercheurs ont découvert qu'un simple espacement des caractères et la suppression de la ponctuation pouvaient facilement contourner le mécanisme de défense du modèle, le rendant ainsi inefficace.
Récemment, Meta a lancé un modèle d'apprentissage automatique appelé Prompt-Guard-86M, conçu pour détecter et répondre aux attaques par injection rapide. Ce type d'attaque implique généralement des entrées spéciales qui entraînent un comportement inapproprié d'un modèle de langage étendu (LLM) ou contournent les restrictions de sécurité. Mais, chose surprenante, le nouveau système lui-même s’expose également au risque d’être attaqué.
Remarque sur la source de l'image : l'image est générée par l'IA et l'image est autorisée par le fournisseur de services Midjourney
Prompt-Guard-86M a été lancé par Meta avec son modèle de génération Llama3.1, principalement pour aider les développeurs à filtrer les invites susceptibles de poser des problèmes. Les grands modèles de langage traitent généralement de grandes quantités de texte et de données et, si rien n’est fait, ils peuvent répéter arbitrairement des informations dangereuses ou sensibles. Par conséquent, les développeurs ont intégré des « garde-corps » dans le modèle pour capturer les entrées et les sorties susceptibles de causer des dommages.
Cependant, les utilisateurs de l’IA semblent considérer le contournement de ces garde-fous comme un défi, en utilisant l’injection d’indices et le jailbreak pour obliger les modèles à ignorer leurs propres consignes de sécurité. Récemment, certains chercheurs ont souligné que le Prompt-Guard-86M de Meta est vulnérable lors du traitement de certaines entrées spéciales. Par exemple, lorsque vous tapez « Ignorer les instructions précédentes » avec un espace entre les lettres, Prompt-Guard-86M ignorera docilement les instructions précédentes.
La découverte a été faite par un chasseur de vulnérabilités nommé Aman Priyanshu, qui a découvert la faille de sécurité en analysant les modèles Meta et les modèles de référence de Microsoft. Priyanshu a déclaré que le processus de réglage fin du Prompt-Guard-86M avait eu très peu d'impact sur les lettres anglaises individuelles, ce qui lui avait permis de concevoir cette attaque. Il a partagé cette découverte sur GitHub, soulignant qu'en espaçant simplement les caractères et en supprimant la ponctuation, le classificateur peut perdre ses capacités de détection.
Hyrum Anderson, directeur de la technologie de Robust Intelligence, est également d'accord. Il a souligné que le taux de réussite des attaques avec cette méthode est de près de 100 %. Bien que Prompt-Guard ne soit qu’une partie de la ligne de défense, l’exposition de cette vulnérabilité a en effet sonné l’alarme pour les entreprises lorsqu’elles utilisent l’IA. Meta n'a pas encore répondu, mais des sources affirment qu'elles recherchent activement une solution.
Points forts:
Le Prompt-Guard-86M de Meta s'est avéré présenter une vulnérabilité de sécurité et est vulnérable aux attaques par injection rapide.
En ajoutant des espaces entre les lettres, le système peut ignorer les instructions de sécurité, avec un taux de réussite des attaques de près de 100 %.
⚠️ Cet incident rappelle aux entreprises d'être prudentes lorsqu'elles utilisent la technologie de l'IA et que les problèmes de sécurité doivent toujours être pris en compte.
La vulnérabilité de Prompt-Guard-86M a révélé les énormes défis auxquels est confronté le domaine de la sécurité de l'IA et a une fois de plus souligné que la sécurité doit être une priorité lors du développement et du déploiement de systèmes d'IA. À l’avenir, des mécanismes de sécurité plus puissants et plus fiables seront la clé du développement de la technologie de l’IA.