Os grandes modelos de linguagem (LLMs) têm grande potencial para muitas tarefas baseadas em linguagem, mas também podem produzir conteúdo prejudicial ou incorreto. Tradicionalmente, os testadores humanos usam red-teaming, que envolve a criação de prompts que provocam respostas indesejadas do modelo para identificar e corrigir esses problemas. Este processo é caro e demorado e, embora as tentativas recentes de automatizá-lo com aprendizagem por reforço tenham se mostrado promissoras, muitas vezes elas perdem muitos prompts potenciais, limitando sua eficácia. Nossa pesquisa apresenta red-teaming (CRT) orientado pela curiosidade, que usa a exploração orientada pela curiosidade para criar uma gama mais ampla de casos de teste. O CRT gera prompts novos e exclusivos, muitas vezes excedendo a eficácia dos métodos atuais, e pode até identificar prompts tóxicos em modelos avançados. No entanto, o CRT enfrenta um desafio com recompensas inovadoras que exigem um ajuste cuidadoso. Para resolver isso, propomos a Otimização de Política Extrínseca-Intrínseca (EIPO), uma abordagem de aprendizagem por reforço que ajusta automaticamente a importância da recompensa intrínseca. O EIPO suprime a exploração desnecessária e a aprimora quando necessário, garantindo uma exploração eficaz sem ajuste manual e levando a ganhos consistentes de desempenho em todas as tarefas. Ao integrar o EIPO, nosso método CRT melhora o red-teaming automatizado, oferecendo uma maneira mais robusta de testar LLMs e destacando a necessidade de exploração orientada pela curiosidade para aumentar a segurança do LLM.