Cet article traite des résultats des tests du modèle de protection de la sécurité du modèle AI d'Ai d'Anthropic. Les chercheurs ont testé l'efficacité de son nouveau mécanisme de sécurité, le classificateur de physique, à travers un défi ouvert de six jours. Les participants ont tenté de contourner toutes les mesures de protection de la sécurité de Claude 3.5 et ont finalement réussi à franchir les huit niveaux de sécurité, déclenchant des discussions approfondies sur la protection de la sécurité de l'IA. Bien que le Challenger ait réussi à faire une percée, aucune "méthode de jailbreak" commune n'a été découverte, ce qui montre qu'il y a encore des défis dans la protection de la sécurité de l'IA, mais il n'est pas complètement incassable.
En seulement six jours, les participants ont réussi à contourner toutes les mesures de protection de la sécurité dans le modèle de l'intelligence artificielle anthropique (IA) Claude 3.5, une percée qui apporte de nouvelles discussions sur le domaine de la protection de la sécurité de l'IA. Jan Leike, un ancien membre de l'équipe d'alignement OpenAI et travaillant maintenant pour Anthropic, a annoncé sur la plate-forme X qu'un participant a réussi les huit niveaux de sécurité. Cet effort collectif impliquait environ 3 700 heures de tests et 300 000 messages des participants.
Malgré la percée réussie du Challenger, Leike a souligné que personne n'avait pu proposer une «méthode de jailbreak» commune pour résoudre tous les défis de sécurité à la fois. Cela signifie que malgré la percée, il n'y a toujours aucun moyen de trouver un moyen universel de contourner toutes les protections de sécurité.
Défis et améliorations des classificateurs physiques
À mesure que les technologies de l'IA deviennent de plus en plus puissantes, comment les protéger de la manipulation et des abus, en particulier en ce qui concerne la production nocive, est devenu un problème de plus en plus important. Anthropic a développé une nouvelle méthode de sécurité - un classificateur de constitution, en particulier pour empêcher la survenue de jailbreaks généraux. Cette méthode utilise des règles prédéfinies pour déterminer si le contenu d'entrée est possible pour manipuler le modèle, empêchant ainsi les réponses dangereuses.
Pour tester l'efficacité de ce système, Anthropic a recruté 183 participants sur une période de deux mois pour essayer de percer la protection de la sécurité du modèle Claude 3.5. Les participants ont été invités à tenter de contourner le mécanisme de sécurité, ce qui a fait répondre à Claude de répondre à dix "questions taboues". Malgré un bonus de 15 000 $ et près de 3 000 heures de test, personne n'a pu contourner toutes les protections de sécurité.
Les versions antérieures du classificateur de la Constitution ont eu quelques problèmes, notamment le marquage d'erreur des demandes inoffensives comme des demandes dangereuses et la nécessité de beaucoup de puissance de calcul. Mais avec des améliorations ultérieures, ces problèmes ont été efficacement résolus. Les données de test montrent que 86% des tentatives de manipulation ont été transmises dans le modèle de Claude non protégé, tandis que la version protégée a empêché plus de 95% des tentatives de manipulation, bien que le système nécessite toujours une puissance de calcul élevée.
Données de formation synthétisées et défis de sécurité futurs
Le système de sécurité est basé sur des données de formation synthétique, en utilisant des règles prédéfinies pour construire la «constitution» d'un modèle qui détermine les entrées autorisées et lesquelles sont interdites. Le classificateur formé à travers ces exemples synthétiques peut identifier efficacement les entrées suspectes. Cependant, les chercheurs reconnaissent que ce système n'est pas parfait et ne peut pas faire face à toutes les formes d'attaques de jailbreak universelles, il est donc recommandé de l'utiliser en combinaison avec d'autres mesures de sécurité.
Afin de renforcer davantage la vérification du système, Anthropic a publié une version de démonstration publique entre les 3 et 10 février 2025, invitant des experts en sécurité à participer au défi, et les résultats seront partagés avec vous par le biais de mises à jour ultérieures.
Ce concours sur la sécurité de l'IA montre les énormes défis et la complexité de la protection des modèles d'IA. Avec l'avancement continu de la technologie, comment améliorer la fonctionnalité du modèle tout en garantissant la sécurité est toujours un problème important que l'industrie de l'IA doit résoudre de toute urgence.
En bref, les résultats de ce défi de sécurité révèlent non seulement les lacunes de la protection de la sécurité de l'IA, mais montrent également les efforts d'Anthropic et les progrès dans l'amélioration de la sécurité de l'IA. À l'avenir, la sécurité de l'IA doit encore être continuellement améliorée et améliorée pour relever les défis en constante évolution.