Model bahasa besar (LLM) memiliki potensi besar untuk banyak tugas berbasis bahasa namun juga dapat menghasilkan konten yang berbahaya atau salah. Secara tradisional, penguji manusia telah menggunakan tim merah, yang melibatkan pembuatan perintah yang menghasilkan respons model yang tidak diinginkan untuk mengidentifikasi dan memperbaiki masalah ini. Proses ini mahal dan memakan waktu, dan meskipun upaya baru-baru ini untuk mengotomatiskannya dengan pembelajaran penguatan telah menunjukkan hasil yang menjanjikan, upaya tersebut sering kali kehilangan banyak petunjuk potensial, sehingga membatasi efektivitasnya. Penelitian kami memperkenalkan tim merah yang didorong oleh rasa ingin tahu (CRT), yang menggunakan eksplorasi yang didorong oleh rasa ingin tahu untuk menciptakan kasus pengujian yang lebih luas. CRT menghasilkan petunjuk baru dan unik, sering kali melebihi efektivitas metode saat ini, dan bahkan dapat mengidentifikasi petunjuk beracun dalam model tingkat lanjut. Namun, CRT menghadapi tantangan dengan imbalan baru yang memerlukan penyesuaian yang cermat. Untuk mengatasi hal ini, kami mengusulkan Optimasi Kebijakan Ekstrinsik-Intrinsik (EIPO), sebuah pendekatan pembelajaran penguatan yang secara otomatis menyesuaikan pentingnya penghargaan intrinsik. EIPO menekan eksplorasi yang tidak perlu dan meningkatkannya bila diperlukan, memastikan eksplorasi yang efektif tanpa penyesuaian manual dan menghasilkan peningkatan kinerja yang konsisten di seluruh tugas. Dengan mengintegrasikan EIPO, metode CRT kami meningkatkan kerja sama merah otomatis, menawarkan cara yang lebih tangguh untuk menguji LLM dan menyoroti perlunya eksplorasi yang didorong oleh rasa ingin tahu untuk meningkatkan keamanan LLM.