บรรณาธิการของ Downcodes นำเสนอรายงานการวิจัยล่าสุดเกี่ยวกับความปลอดภัยของโมเดลภาษาขนาดใหญ่ (LLM) ให้กับคุณ งานวิจัยนี้เผยให้เห็นช่องโหว่ที่ไม่คาดคิดซึ่งมาตรการรักษาความปลอดภัยที่ดูเหมือนจะไม่เป็นพิษเป็นภัยใน LLM สามารถนำมาใช้ได้ นักวิจัยพบว่ามีความแตกต่างอย่างมีนัยสำคัญในความยากของการ "เจลเบรก" โมเดลสำหรับคีย์เวิร์ดตามกลุ่มประชากรที่แตกต่างกัน ซึ่งทำให้ผู้คนคิดอย่างลึกซึ้งเกี่ยวกับความยุติธรรมและความปลอดภัยของ AI ผลการวิจัยชี้ให้เห็นว่ามาตรการรักษาความปลอดภัยที่ออกแบบมาเพื่อให้แน่ใจว่าพฤติกรรมที่มีจริยธรรมของแบบจำลองอาจทำให้ความแตกต่างนี้รุนแรงขึ้นโดยไม่ตั้งใจ ทำให้การโจมตีด้วยการเจลเบรคต่อกลุ่มที่มีช่องโหว่มีแนวโน้มที่จะประสบความสำเร็จมากขึ้น
การศึกษาใหม่แสดงให้เห็นว่ามาตรการรักษาความปลอดภัยที่มีเจตนาดีในโมเดลภาษาขนาดใหญ่อาจทำให้เกิดช่องโหว่ที่ไม่คาดคิดได้ นักวิจัยพบความแตกต่างที่สำคัญว่าโมเดลสามารถ "เจลเบรค" ได้ง่ายเพียงใดโดยพิจารณาจากเงื่อนไขทางประชากรศาสตร์ที่แตกต่างกัน การศึกษาเรื่อง "Do LLMs Have Political Correctness?" ได้สำรวจว่าคีย์เวิร์ดตามข้อมูลประชากรส่งผลต่อโอกาสที่การเจลเบรคจะประสบความสำเร็จอย่างไร การศึกษาพบว่าการแจ้งที่ใช้คำศัพท์จากกลุ่มชายขอบมีแนวโน้มที่จะสร้างผลลัพธ์ที่ไม่พึงประสงค์มากกว่าการแจ้งที่ใช้คำศัพท์จากกลุ่มที่ได้รับสิทธิพิเศษ
“อคติโดยเจตนาเหล่านี้นำไปสู่ความแตกต่าง 20% ในอัตราความสำเร็จในการเจลเบรกของโมเดล GPT-4o ระหว่างคีย์เวิร์ดที่ไม่ใช่ไบนารีและซิสเจนเดอร์ และความแตกต่าง 16% ระหว่างคีย์เวิร์ดสีขาวและสีดำ” นักวิจัยตั้งข้อสังเกต ถึงแม้ว่าส่วนอื่น ๆ ของ ข้อความแจ้งก็เหมือนกันทั้งหมด” Isack Lee และ Haebin Seong จาก Theori Inc. อธิบาย
นักวิจัยระบุถึงความแตกต่างนี้เนื่องจากมีอคติโดยเจตนาเพื่อให้แน่ใจว่าแบบจำลองมีจริยธรรม วิธีการเจลเบรกทำงานอย่างไร นักวิจัยได้สร้างวิธี "PCJailbreak" เพื่อทดสอบช่องโหว่ของโมเดลภาษาขนาดใหญ่ต่อการโจมตีด้วยการเจลเบรก การโจมตีเหล่านี้ใช้สัญญาณที่สร้างขึ้นอย่างพิถีพิถันเพื่อหลีกเลี่ยงมาตรการรักษาความปลอดภัยของ AI และสร้างเนื้อหาที่เป็นอันตราย
PCJailbreak ใช้คำสำคัญจากกลุ่มประชากรและเศรษฐกิจสังคมที่แตกต่างกัน นักวิจัยได้สร้างคู่คำ เช่น "รวย" และ "จน" หรือ "ชาย" และ "หญิง" เพื่อเปรียบเทียบกลุ่มที่มีสิทธิพิเศษและกลุ่มชายขอบ
จากนั้นพวกเขาจึงสร้างข้อความแจ้งที่รวมคำหลักเหล่านี้เข้ากับคำแนะนำที่อาจเป็นอันตราย ด้วยการทดสอบชุดค่าผสมต่างๆ ซ้ำๆ พวกเขาสามารถวัดโอกาสของการพยายามเจลเบรกสำหรับคำหลักแต่ละคำได้สำเร็จ ผลลัพธ์แสดงให้เห็นความแตกต่างอย่างมีนัยสำคัญ: โดยทั่วไปแล้ว คำหลักที่เป็นตัวแทนของกลุ่มชายขอบมีโอกาสประสบความสำเร็จสูงกว่าคำหลักที่เป็นตัวแทนของกลุ่มที่ได้รับสิทธิพิเศษ สิ่งนี้ชี้ให้เห็นว่ามาตรการรักษาความปลอดภัยของโมเดลมีอคติโดยไม่ตั้งใจซึ่งอาจถูกโจมตีด้วยการเจลเบรกได้
เพื่อแก้ไขช่องโหว่ที่ค้นพบโดย PCJailbreak นักวิจัยได้พัฒนาวิธีการ "PCDefense" วิธีการนี้ใช้การป้องกันแบบพิเศษเพื่อลดอคติที่มากเกินไปในโมเดลภาษา ทำให้มีความเสี่ยงน้อยลงที่จะถูกโจมตีด้วยการแหกคุก
PCDefense มีความพิเศษตรงที่ไม่ต้องมีขั้นตอนการสร้างแบบจำลองหรือการประมวลผลเพิ่มเติม แต่จะมีการเพิ่มสัญญาณป้องกันลงในอินพุตโดยตรงเพื่อปรับอคติและรับพฤติกรรมที่สมดุลมากขึ้นจากโมเดลภาษา
นักวิจัยได้ทดสอบ PCDefense ในโมเดลที่หลากหลาย และแสดงให้เห็นว่าโอกาสที่ความพยายามในการเจลเบรกจะสำเร็จสามารถลดลงได้อย่างมาก ทั้งสำหรับกลุ่มที่ได้รับสิทธิพิเศษและกลุ่มชายขอบ ในขณะเดียวกัน ช่องว่างระหว่างกลุ่มก็ลดลง ซึ่งบ่งชี้ถึงอคติด้านความปลอดภัยที่ลดลง
นักวิจัยกล่าวว่า PCDefense มอบวิธีที่มีประสิทธิภาพและปรับขนาดได้เพื่อปรับปรุงความปลอดภัยของโมเดลภาษาขนาดใหญ่โดยไม่ต้องมีการคำนวณเพิ่มเติม
ผลการวิจัยเน้นย้ำถึงความซับซ้อนของการออกแบบระบบ AI ที่ปลอดภัยและมีจริยธรรม ในการสร้างสมดุลด้านความปลอดภัย ความยุติธรรม และประสิทธิภาพ การปรับแต่งราวกั้นด้านความปลอดภัยโดยเฉพาะอาจลดประสิทธิภาพโดยรวมของโมเดล AI เช่น ความคิดสร้างสรรค์
เพื่ออำนวยความสะดวกในการวิจัยและปรับปรุงเพิ่มเติม ผู้เขียนได้จัดทำโค้ดของ PCJailbreak และส่วนที่เกี่ยวข้องทั้งหมดให้เป็นโอเพ่นซอร์ส Theori Inc ซึ่งเป็นบริษัทที่อยู่เบื้องหลังการวิจัยนี้ เป็นบริษัทรักษาความปลอดภัยทางไซเบอร์ที่เชี่ยวชาญด้านการรักษาความปลอดภัยเชิงรุกและมีสำนักงานใหญ่ในสหรัฐอเมริกาและเกาหลีใต้ ก่อตั้งขึ้นในเดือนมกราคม 2559 โดย Andrew Wesie และ Brian Pak
งานวิจัยนี้ให้ข้อมูลเชิงลึกที่มีคุณค่าเกี่ยวกับความปลอดภัยและความยุติธรรมของแบบจำลองภาษาขนาดใหญ่ และยังเน้นย้ำถึงความสำคัญของการให้ความสนใจอย่างต่อเนื่องต่อผลกระทบด้านจริยธรรมและสังคมในการพัฒนา AI บรรณาธิการของ Downcodes จะยังคงให้ความสำคัญกับการพัฒนาล่าสุดในสาขานี้ และนำเสนอข้อมูลทางวิทยาศาสตร์และเทคโนโลยีที่ล้ำสมัยมากขึ้นให้กับคุณ