Enhancing LLMs with CRT and EIPO
1.0.0
大型语言模型 (LLM) 对于许多基于语言的任务具有巨大潜力,但也可能产生有害或不正确的内容。传统上,人类测试人员使用红队,其中涉及创建提示来引发不需要的模型响应,以识别和修复这些问题。这个过程既昂贵又耗时,虽然最近通过强化学习实现自动化的尝试已显示出希望,但它们经常会错过许多潜在的提示,从而限制了其有效性。我们的研究引入了好奇心驱动的红队(CRT),它利用好奇心驱动的探索来创建更广泛的测试用例。 CRT 生成新的、独特的提示,通常超出当前方法的有效性,甚至可以识别高级模型中的有毒提示。然而,CRT 面临着新奇奖励的挑战,需要仔细调整。为了解决这个问题,我们提出了外在-内在政策优化(EIPO),这是一种自动调整内在奖励重要性的强化学习方法。 EIPO 抑制不必要的探索,并在需要时对其进行增强,确保有效探索而无需手动调整,并实现跨任务的一致性能提升。通过集成 EIPO,我们的 CRT 方法改进了自动化红队,提供了更强大的方法来测试法学硕士,并强调了好奇心驱动的探索的必要性,以增强法学硕士的安全性。