Enhancing LLMs with CRT and EIPO
1.0.0
大規模言語モデル (LLM) は、多くの言語ベースのタスクに大きな可能性を秘めていますが、有害なコンテンツや不正確なコンテンツを生成する可能性もあります。従来、人間のテスターは、これらの問題を特定して修正するために、望ましくないモデルの応答を引き出すプロンプトを作成するレッドチームを使用してきました。このプロセスは費用と時間がかかり、強化学習を使用して自動化する最近の試みは有望ですが、潜在的なプロンプトの多くが見逃されることが多く、効果が限られています。私たちの研究では、好奇心主導のレッドチーム (CRT) を導入しています。これは、好奇心主導の探索を使用して、より広範囲のテスト ケースを作成します。 CRT は、新しい独自のプロンプトを生成し、多くの場合、現在の方法の有効性を超え、高度なモデルでは有害なプロンプトを特定することもできます。ただし、CRT は、慎重な調整が必要なノベルティ特典という課題に直面しています。これに対処するために、私たちは、本質的な報酬の重要性を自動的に調整する強化学習アプローチである Extrinsic-Intrinsic Policy Optimization (EIPO) を提案します。 EIPO は不必要な探索を抑制し、必要に応じて探索を強化することで、手動調整なしで効果的な探索を保証し、タスク全体で一貫したパフォーマンスの向上をもたらします。 EIPO を統合することで、当社の CRT メソッドは自動レッドチーム化を改善し、LLM をテストするためのより堅牢な方法を提供し、LLM の安全性を高めるための好奇心主導の探索の必要性を強調します。