تتمتع النماذج اللغوية الكبيرة (LLMs) بإمكانيات كبيرة للعديد من المهام المستندة إلى اللغة ولكنها يمكن أن تنتج أيضًا محتوى ضارًا أو غير صحيح. تقليديًا، استخدم المختبرون البشريون الفريق الأحمر، والذي يتضمن إنشاء مطالبات تثير استجابات نموذجية غير مرغوب فيها لتحديد هذه المشكلات وإصلاحها. هذه العملية مكلفة وتستغرق وقتًا طويلاً، وفي حين أن المحاولات الأخيرة لأتمتتها من خلال التعلم المعزز أظهرت نتائج واعدة، إلا أنها غالبًا ما تفوت العديد من المحفزات المحتملة، مما يحد من فعاليتها. يقدم بحثنا مفهوم الفريق الأحمر المدفوع بالفضول (CRT)، والذي يستخدم الاستكشاف المدفوع بالفضول لإنشاء نطاق أوسع من حالات الاختبار. يولد CRT مطالبات جديدة وفريدة من نوعها، غالبًا ما تتجاوز فعالية الأساليب الحالية، ويمكنه حتى تحديد المحفزات السامة في النماذج المتقدمة. ومع ذلك، يواجه CRT تحديًا يتمثل في المكافآت الجديدة التي تتطلب ضبطًا دقيقًا. ولمعالجة هذه المشكلة، نقترح تحسين السياسة الخارجية والجوهرية (EIPO)، وهو نهج التعلم المعزز الذي يقوم تلقائيًا بضبط أهمية المكافأة الجوهرية. يمنع EIPO الاستكشاف غير الضروري ويعززه عند الحاجة، مما يضمن الاستكشاف الفعال دون ضبط يدوي ويؤدي إلى مكاسب متسقة في الأداء عبر المهام. من خلال دمج EIPO، تعمل طريقة CRT الخاصة بنا على تحسين العمل الجماعي الآلي، مما يوفر طريقة أكثر قوة لاختبار LLMs وتسليط الضوء على الحاجة إلى الاستكشاف المدفوع بالفضول لتعزيز سلامة LLM.