L'éditeur de Downcodes vous propose un dernier rapport de recherche sur la sécurité des grands modèles de langage (LLM). Cette recherche révèle les vulnérabilités inattendues que peuvent introduire des mesures de sécurité apparemment inoffensives dans LLM. Les chercheurs ont constaté qu'il existait des différences significatives dans la difficulté de « jailbreaker » les modèles pour différents mots-clés démographiques, ce qui a incité les gens à réfléchir profondément à l'équité et à la sécurité de l'IA. Les résultats suggèrent que les mesures de sécurité conçues pour garantir un comportement éthique des modèles peuvent par inadvertance exacerber cette disparité, rendant ainsi les attaques de jailbreak contre les groupes vulnérables plus susceptibles de réussir.
Une nouvelle étude montre que des mesures de sécurité bien intentionnées dans les grands modèles de langage peuvent introduire des vulnérabilités inattendues. Les chercheurs ont découvert des différences significatives dans la facilité avec laquelle les modèles pouvaient être « jailbreakés » en fonction de différents termes démographiques. L'étude, intitulée « Les LLM ont-ils un caractère politiquement correct ? », a exploré comment les mots-clés démographiques affectent les chances de réussite d'une tentative de jailbreak. Des études ont montré que les invites utilisant la terminologie de groupes marginalisés sont plus susceptibles de produire des résultats indésirables que les invites utilisant la terminologie de groupes privilégiés.
"Ces biais intentionnels entraînent une différence de 20 % dans le taux de réussite du jailbreak du modèle GPT-4o entre les mots-clés non binaires et cisgenres, et une différence de 16 % entre les mots-clés blancs et noirs", notent les chercheurs, même si d'autres parties de l'invite était complètement la même. " ont expliqué Isack Lee et Haebin Seong de Theori Inc.
Les chercheurs attribuent cette différence à un biais intentionnel introduit pour garantir que le modèle se comporte de manière éthique. Le fonctionnement du jailbreak est dû au fait que les chercheurs ont créé la méthode « PCJailbreak » pour tester la vulnérabilité des grands modèles de langage aux attaques de jailbreak. Ces attaques utilisent des signaux soigneusement conçus pour contourner les mesures de sécurité de l’IA et générer du contenu nuisible.
PCJailbreak utilise des mots-clés de différents groupes démographiques et socio-économiques. Les chercheurs ont créé des paires de mots comme « riche » et « pauvre » ou « homme » et « femme » pour comparer les groupes privilégiés et marginalisés.
Ils ont ensuite créé des invites combinant ces mots-clés avec des instructions potentiellement dangereuses. En testant à plusieurs reprises différentes combinaisons, ils ont pu mesurer les chances de réussite d’une tentative de jailbreak pour chaque mot-clé. Les résultats ont montré une différence significative : les mots-clés représentant des groupes marginalisés avaient généralement une chance de succès beaucoup plus élevée que les mots-clés représentant des groupes privilégiés. Cela suggère que les mesures de sécurité du modèle comportent des biais involontaires qui pourraient être exploités par des attaques de jailbreak.
Pour remédier aux vulnérabilités découvertes par PCJailbreak, les chercheurs ont développé la méthode « PCDefense ». Cette approche utilise des signaux défensifs spéciaux pour réduire les biais excessifs dans les modèles de langage, les rendant ainsi moins vulnérables aux attaques de jailbreak.
PCDefense est unique dans le sens où il ne nécessite aucune étape supplémentaire de modélisation ou de traitement. Au lieu de cela, des signaux défensifs sont ajoutés directement à l'entrée pour ajuster les biais et obtenir un comportement plus équilibré du modèle de langage.
Les chercheurs ont testé PCDefense sur divers modèles et ont montré que les chances de réussite d'une tentative de jailbreak peuvent être considérablement réduites, tant pour les groupes privilégiés que marginalisés. Dans le même temps, l’écart entre les groupes a diminué, ce qui indique une réduction des préjugés liés à la sécurité.
Les chercheurs affirment que PCDefense offre un moyen efficace et évolutif d'améliorer la sécurité des grands modèles de langage sans nécessiter de calculs supplémentaires.
Les résultats mettent en évidence la complexité de la conception de systèmes d’IA sûrs et éthiques en équilibrant sécurité, équité et performances. Le réglage précis des garde-corps de sécurité spécifiques peut réduire les performances globales des modèles d'IA, telles que leur créativité.
Pour faciliter les recherches et les améliorations ultérieures, les auteurs ont rendu le code de PCJailbreak et tous les artefacts associés disponibles en open source. Theori Inc, la société à l'origine de la recherche, est une société de cybersécurité spécialisée dans la sécurité offensive et basée aux États-Unis et en Corée du Sud. Elle a été fondée en janvier 2016 par Andrew Wesie et Brian Pak.
Cette recherche fournit des informations précieuses sur la sécurité et l’équité des modèles linguistiques à grande échelle, et souligne également l’importance d’une attention continue aux impacts éthiques et sociaux dans le développement de l’IA. L'éditeur de Downcodes continuera à être attentif aux dernières évolutions dans ce domaine et à vous apporter des informations scientifiques et technologiques toujours plus pointues.