Los modelos de lenguaje grande (LLM) tienen un gran potencial para muchas tareas basadas en el lenguaje, pero también pueden producir contenido dañino o incorrecto. Tradicionalmente, los evaluadores humanos han utilizado el equipo rojo, que implica la creación de indicaciones que provocan respuestas del modelo no deseadas para identificar y solucionar estos problemas. Este proceso es costoso y requiere mucho tiempo, y si bien los intentos recientes de automatizarlo con aprendizaje por refuerzo han resultado prometedores, a menudo pasan por alto muchas indicaciones potenciales, lo que limita su efectividad. Nuestra investigación presenta el equipo rojo impulsado por la curiosidad (CRT), que utiliza la exploración impulsada por la curiosidad para crear una gama más amplia de casos de prueba. La CRT genera indicaciones nuevas y únicas, que a menudo superan la efectividad de los métodos actuales, e incluso puede identificar indicaciones tóxicas en modelos avanzados. Sin embargo, CRT enfrenta un desafío con recompensas novedosas que requieren un ajuste cuidadoso. Para abordar esto, proponemos la Optimización de Políticas Extrínseca-Intrínseca (EIPO), un enfoque de aprendizaje por refuerzo que ajusta automáticamente la importancia de la recompensa intrínseca. EIPO suprime la exploración innecesaria y la mejora cuando es necesario, lo que garantiza una exploración eficaz sin ajustes manuales y conduce a mejoras de rendimiento consistentes en todas las tareas. Al integrar EIPO, nuestro método CRT mejora el equipo rojo automatizado, ofreciendo una forma más sólida de probar los LLM y destacando la necesidad de una exploración impulsada por la curiosidad para mejorar la seguridad de los LLM.