Des chercheurs développent la méthode d'attaque de l'IA BEAST : contourner le garde-corps LLM en une minute

Auteur：Eve Cole Date de mise à jour：2025-01-05 17:48:01

Des chercheurs de l'Université du Maryland ont développé une nouvelle technologie appelée BEAST qui peut provoquer des réactions néfastes dans les grands modèles de langage (LLM) en une minute, avec un taux de réussite de 89 %. Cette recherche met en évidence les vulnérabilités de sécurité des LLM actuels et pose de sérieux défis pour la sécurité des modèles d'IA. La technologie BEAST utilise du matériel relativement courant (GPU Nvidia RTX A6000 et 48 Go de mémoire) pour attaquer les modèles commerciaux, dont le GPT-4 d'OpenAI, sans accéder à l'intégralité du contenu du modèle. Cela montre que même des modèles apparemment sécurisés risquent d’être exploités à des fins malveillantes.

Des chercheurs de l'Université du Maryland aux États-Unis ont développé avec succès la technologie BEAST, capable de déclencher des réactions nuisibles dans de grands modèles de langage en une minute, avec un taux de réussite pouvant atteindre 89 %. Cette technologie utilise le GPU Nvidia RTX A6000 avec 48 Go de mémoire et peut attaquer les modèles commerciaux, tels que le GPT-4 d'OpenAI, sans accéder à l'intégralité du modèle de langage. La rapidité et l'efficacité de la méthode d'attaque BEAST démontrent la vulnérabilité du modèle d'IA et brisent les garde-fous du LLM.

L'émergence de la technologie BEAST a sonné l'alarme dans le domaine de la sécurité de l'IA, nous rappelant que nous devons renforcer davantage la recherche sur la sécurité sur les grands modèles de langage, développer des mécanismes de défense plus efficaces pour faire face aux menaces potentielles à la sécurité et assurer le développement sain des technologies artificielles. technologie du renseignement. À l'avenir, une technologie de défense plus puissante et des normes de sécurité plus strictes deviendront la clé du développement du domaine de l'IA.