Enhancing LLMs with CRT and EIPO
1.0.0
大型語言模型 (LLM) 對於許多基於語言的任務具有巨大潛力,但也可能產生有害或不正確的內容。傳統上,人類測試人員使用紅隊,其中涉及創建提示來引發不必要的模型響應,以識別和修復這些問題。這個過程既昂貴又耗時,雖然最近透過強化學習實現自動化的嘗試已顯示出希望,但它們經常錯過許多潛在的提示,從而限制了其有效性。我們的研究引入了好奇心驅動的紅隊(CRT),它利用好奇心驅動的探索來創建更廣泛的測試案例。 CRT 產生新的、獨特的提示,通常超出當前方法的有效性,甚至可以識別高級模型中的有毒提示。然而,CRT 面臨新奇獎勵的挑戰,需要仔細調整。為了解決這個問題,我們提出了外在-內在政策最佳化(EIPO),這是一種自動調整內在獎勵重要性的強化學習方法。 EIPO 抑制不必要的探索,並在需要時進行增強,確保有效探索而無需手動調整,並實現跨任務的一致性能提升。透過整合 EIPO,我們的 CRT 方法改進了自動化紅隊,提供了更強大的方法來測試法學碩士,並強調了好奇心驅動的探索的必要性,以增強法學碩士的安全性。