Большие языковые модели (LLM) обладают большим потенциалом для решения многих языковых задач, но также могут создавать вредный или неправильный контент. Традиционно тестировщики-люди использовали «красную команду», которая предполагает создание подсказок, вызывающих нежелательные реакции модели, для выявления и устранения этих проблем. Этот процесс является дорогостоящим и трудоемким, и хотя недавние попытки автоматизировать его с помощью обучения с подкреплением оказались многообещающими, они часто упускают из виду многие потенциальные подсказки, что ограничивает их эффективность. Наше исследование представляет собой «красную команду», движимую любопытством (CRT), которая использует исследование, движимое любопытством, для создания более широкого спектра тестовых примеров. ЭЛТ генерирует новые и уникальные подсказки, часто превосходящие эффективность существующих методов, и может даже выявлять токсичные подсказки в продвинутых моделях. Однако CRT сталкивается с проблемой новых вознаграждений, которые требуют тщательной настройки. Чтобы решить эту проблему, мы предлагаем внешнюю-внутреннюю оптимизацию политики (EIPO) — подход обучения с подкреплением, который автоматически регулирует важность внутреннего вознаграждения. EIPO подавляет ненужное исследование и расширяет его при необходимости, обеспечивая эффективное исследование без ручной настройки и приводя к последовательному повышению производительности при выполнении различных задач. Благодаря интеграции EIPO наш метод CRT улучшает автоматическое объединение красных групп, предлагая более надежный способ тестирования LLM и подчеркивая необходимость исследований, основанных на любопытстве, для повышения безопасности LLM.