Enhancing LLMs with CRT and EIPO
1.0.0
LLM(대형 언어 모델)은 많은 언어 기반 작업에 큰 잠재력을 갖고 있지만 유해하거나 잘못된 콘텐츠를 생성할 수도 있습니다. 전통적으로 인간 테스터는 이러한 문제를 식별하고 해결하기 위해 원치 않는 모델 응답을 유도하는 프롬프트를 생성하는 레드팀을 사용해 왔습니다. 이 프로세스는 비용이 많이 들고 시간이 많이 소요되며 강화 학습을 통해 이를 자동화하려는 최근의 시도가 가능성을 보였지만 종종 많은 잠재적인 프롬프트를 놓치고 효율성이 제한됩니다. 우리의 연구에서는 호기심 중심 탐색을 사용하여 더 광범위한 테스트 사례를 만드는 CRT(호기심 중심 레드팀)를 소개합니다. CRT는 종종 현재 방법의 효율성을 초과하는 새롭고 독특한 프롬프트를 생성하며 고급 모델에서 유해한 프롬프트를 식별할 수도 있습니다. 그러나 CRT는 세심한 조정이 필요한 참신한 보상으로 인해 어려움을 겪고 있습니다. 이 문제를 해결하기 위해 우리는 본질적인 보상 중요성을 자동으로 조정하는 강화 학습 접근 방식인 EIPO(Extrinsic-Intrinsic Policy Optimization)를 제안합니다. EIPO는 불필요한 탐색을 억제하고 필요할 때 이를 향상시켜 수동 조정 없이 효과적인 탐색을 보장하고 작업 전반에 걸쳐 일관된 성능 향상을 이끌어냅니다. EIPO를 통합함으로써 당사의 CRT 방법은 자동화된 레드팀 구성을 개선하여 LLM을 테스트하는 보다 강력한 방법을 제공하고 LLM 안전을 강화하기 위한 호기심 중심 탐색의 필요성을 강조합니다.