Les grands modèles linguistiques (LLM) ont un grand potentiel pour de nombreuses tâches basées sur le langage, mais peuvent également produire du contenu nuisible ou incorrect. Traditionnellement, les testeurs humains utilisaient le red-teaming, qui consiste à créer des invites qui suscitent des réponses indésirables du modèle pour identifier et résoudre ces problèmes. Ce processus est coûteux et prend du temps, et même si les tentatives récentes visant à l'automatiser grâce à l'apprentissage par renforcement se sont révélées prometteuses, elles manquent souvent de nombreuses invites potentielles, ce qui limite leur efficacité. Notre recherche introduit le Red Teaming (CRT) axé sur la curiosité, qui utilise l'exploration axée sur la curiosité pour créer une gamme plus large de cas de test. Le CRT génère des invites nouvelles et uniques, dépassant souvent l'efficacité des méthodes actuelles, et peut même identifier les invites toxiques dans les modèles avancés. Cependant, CRT est confronté à un défi avec les récompenses de nouveauté qui nécessitent un réglage minutieux. Pour résoudre ce problème, nous proposons l'optimisation des politiques extrinsèques-intrinsèques (EIPO), une approche d'apprentissage par renforcement qui ajuste automatiquement l'importance de la récompense intrinsèque. EIPO supprime l’exploration inutile et l’améliore si nécessaire, garantissant ainsi une exploration efficace sans réglage manuel et conduisant à des gains de performances constants dans toutes les tâches. En intégrant EIPO, notre méthode CRT améliore l'équipe rouge automatisée, offrant un moyen plus robuste de tester les LLM et soulignant la nécessité d'une exploration motivée par la curiosité pour améliorer la sécurité des LLM.