โมเดลภาษาขนาดใหญ่ (LLM) มีศักยภาพที่ดีสำหรับงานที่ใช้ภาษาจำนวนมาก แต่ก็สามารถสร้างเนื้อหาที่เป็นอันตรายหรือไม่ถูกต้องได้เช่นกัน ตามเนื้อผ้า ผู้ทดสอบที่เป็นมนุษย์จะใช้ทีมสีแดง ซึ่งเกี่ยวข้องกับการสร้างพรอมต์ที่กระตุ้นการตอบสนองของโมเดลที่ไม่ต้องการเพื่อระบุและแก้ไขปัญหาเหล่านี้ กระบวนการนี้มีราคาแพงและใช้เวลานาน และแม้ว่าความพยายามล่าสุดในการทำให้เป็นอัตโนมัติด้วยการเรียนรู้แบบเสริมกำลังแสดงให้เห็นผลลัพธ์ที่ดี แต่ก็มักจะพลาดคำแนะนำที่เป็นไปได้หลายประการ ซึ่งจำกัดประสิทธิภาพ งานวิจัยของเราแนะนำการรวมทีมสีแดงที่ขับเคลื่อนด้วยความอยากรู้ (CRT) ซึ่งใช้การสำรวจที่ขับเคลื่อนด้วยความอยากรู้เพื่อสร้างกรณีทดสอบที่หลากหลายยิ่งขึ้น CRT สร้างการแจ้งเตือนใหม่ๆ ที่ไม่ซ้ำใคร ซึ่งมักจะเกินประสิทธิภาพของวิธีการปัจจุบัน และยังสามารถระบุการแจ้งเตือนที่เป็นพิษในโมเดลขั้นสูงได้อีกด้วย อย่างไรก็ตาม CRT เผชิญกับความท้าทายด้วยรางวัลแปลกใหม่ที่ต้องมีการปรับแต่งอย่างระมัดระวัง เพื่อแก้ไขปัญหานี้ เราขอเสนอการเพิ่มประสิทธิภาพนโยบายภายนอก-ภายใน (EIPO) ซึ่งเป็นแนวทางการเรียนรู้แบบเสริมกำลังที่จะปรับความสำคัญของรางวัลจากภายในโดยอัตโนมัติ EIPO ระงับการสำรวจที่ไม่จำเป็นและปรับปรุงเมื่อจำเป็น ทำให้มั่นใจได้ว่าการสำรวจมีประสิทธิภาพโดยไม่ต้องปรับแต่งด้วยตนเอง และนำไปสู่การได้รับประสิทธิภาพที่สม่ำเสมอในทุกงาน ด้วยการผสานรวม EIPO วิธี CRT ของเราปรับปรุงการจัดทีมสีแดงแบบอัตโนมัติ โดยเสนอวิธีที่มีประสิทธิภาพมากขึ้นในการทดสอบ LLM และเน้นย้ำถึงความจำเป็นในการสำรวจที่ขับเคลื่อนด้วยความอยากรู้อยากเห็นเพื่อเพิ่มความปลอดภัยของ LLM