Anthropic lance "Body Constitution Classifier": Bloque avec succès 95% des tentatives de modèle de jailbreak - IRC.

Auteur：Eve Cole Date de mise à jour：2025-02-16 07:48:01

Le dernier "classificateur de corps" d'Anthropic a apporté de nouvelles percées à la protection de la sécurité de l'IA. Cette technologie est conçue pour résister efficacement aux attaques de «jailbreak universel» et à empêcher les modèles d'IA de générer un contenu nocif. Grâce à des tests à grande échelle, 183 participants n'étaient toujours pas en mesure de contourner complètement la protection de la sécurité du système sous l'incitation de bonus élevés et de temps suffisant, ce qui a pleinement démontré les fortes capacités de défense du "classificateur physique". Cet article mènera une discussion approfondie sur le principe de travail, le processus d'amélioration et l'orientation future de développement du «classificateur de constitution physique».

La société d'intelligence artificielle Anthropic a récemment annoncé le développement d'une nouvelle méthode de sécurité appelée "Constitution Body Constitution" visant à protéger les modèles de langage contre la manipulation malveillante. La technologie vise spécifiquement le «jailbreak universel» - un moyen de contribution qui tente de contourner systématiquement toutes les mesures de sécurité pour empêcher les modèles d'IA de générer un contenu nocif.

Pour vérifier l'efficacité de cette technologie, Anthropic a effectué un test à grande échelle. L'entreprise a recruté 183 participants pour essayer de percer son système de défense dans les deux mois. Les participants ont été invités à essayer d'obtenir le modèle d'IA Claude 3.5 pour répondre à dix questions interdites en entrant des questions spécifiques. Malgré l'offre de bonus jusqu'à 15 000 $ et environ 3 000 heures de test, aucun participant n'a pu contourner complètement les mesures de sécurité d'Anthropic.

Claude2，Anthropic，人工智能，聊天机器人克劳德

Avancer des défis

La première version d'Anthropic du «classificateur de la Constitution corporelle» a eu deux problèmes principaux: l'un devait mal juger trop de demandes inoffensives comme des demandes dangereuses, et l'autre devait nécessiter une grande quantité de ressources informatiques. Après amélioration, le nouveau classificateur réduit considérablement le taux de mauvaise évaluation et optimise l'efficacité informatique. Cependant, les tests automatiques montrent que si l'amélioration du système a bloqué avec succès plus de 95% des tentatives de jailbreak, 23,7% supplémentaires de la puissance de calcul sont nécessaires pour s'exécuter. En revanche, le modèle Claude non protégé permet 86% des tentatives de jailbreak de passer.

Formation basée sur les données synthétiques

Le noyau du «classificateur de la Constitution» est d'utiliser des règles prédéfinies (appelées «Constitution») pour distinguer entre et interdite. Le système forme le classificateur pour identifier les entrées suspectes en générant des exemples de formation synthétique dans plusieurs langues et styles. Cette approche améliore non seulement la précision du système, mais améliore également sa capacité à faire face à diverses attaques.

Malgré des progrès significatifs, les chercheurs anthropiques reconnaissent que le système n'est pas parfait. Il peut ne pas être en mesure de faire face à tous les types d'attaques universelles de jailbreak, et de nouvelles méthodes d'attaque peuvent émerger à l'avenir. Par conséquent, Anthropic recommande d'utiliser le «classificateur de Constitution» en conjonction avec d'autres mesures de sécurité pour fournir une protection plus complète.

Tests publics et perspectives d'avenir

Pour tester davantage la force du système, Anthropic prévoit de publier une version de démonstration publique entre les 3 et 10 février 2025, invitant des experts en sécurité à essayer de le casser. Les résultats des tests seront annoncés dans les mises à jour ultérieures. Cette décision démontre non seulement l'engagement d'Anthropic envers la transparence technologique, mais fournit également des données précieuses pour la recherche dans le domaine de la sécurité de l'IA.

Le «classificateur de corps» d'Anthropic marque un progrès important dans la protection de la sécurité des modèles d'IA. Avec le développement rapide de la technologie de l'IA, comment prévenir efficacement l'abus des modèles est devenu l'attention de l'attention de l'industrie. Les innovations d'Anthropic fournissent de nouvelles solutions à ce défi, tout en soulignant la direction des futures recherches sur la sécurité de l'IA.

Le «classificateur de corps» d'Anthropic établit une nouvelle référence pour le domaine de la sécurité de l'IA, et ses concepts de tests publics et d'amélioration continue valent la peine d'être appris. À l'avenir, avec le développement continu de la technologie et l'évolution des menaces de sécurité, l'amélioration et la mise à niveau des «classificateurs physiques» joueront un rôle plus critique dans la sécurité de l'IA.