Große Sprachmodelle (LLMs) bieten großes Potenzial für viele sprachbasierte Aufgaben, können aber auch schädliche oder falsche Inhalte erzeugen. Traditionell verwenden menschliche Tester Red-Teaming, bei dem Eingabeaufforderungen erstellt werden, die unerwünschte Modellreaktionen hervorrufen, um diese Probleme zu identifizieren und zu beheben. Dieser Prozess ist teuer und zeitaufwändig, und obwohl sich die jüngsten Versuche, ihn durch Reinforcement Learning zu automatisieren, als vielversprechend erwiesen haben, übersehen sie häufig viele potenzielle Eingabeaufforderungen, was ihre Wirksamkeit einschränkt. Unsere Forschung führt neugieriges Red-Teaming (CRT) ein, das neugierige Erkundung nutzt, um ein breiteres Spektrum an Testfällen zu erstellen. CRT generiert neue und einzigartige Eingabeaufforderungen, die häufig die Wirksamkeit aktueller Methoden übertreffen, und kann in fortschrittlichen Modellen sogar toxische Eingabeaufforderungen identifizieren. Allerdings steht CRT vor einer Herausforderung mit neuartigen Belohnungen, die eine sorgfältige Abstimmung erfordern. Um dieses Problem anzugehen, schlagen wir Extrinsic-Intrinsic Policy Optimization (EIPO) vor, einen Ansatz des verstärkenden Lernens, der die intrinsische Belohnungsbedeutung automatisch anpasst. EIPO unterdrückt unnötige Erkundungen und verbessert sie bei Bedarf, wodurch eine effektive Erkundung ohne manuelle Abstimmung gewährleistet wird und zu konsistenten Leistungssteigerungen über alle Aufgaben hinweg führt. Durch die Integration von EIPO verbessert unsere CRT-Methode das automatisierte Red-Teaming, bietet eine robustere Möglichkeit zum Testen von LLMs und unterstreicht die Notwendigkeit einer neugierigen Erkundung zur Verbesserung der LLM-Sicherheit.