Meta เพิ่งเปิดตัว Prompt-Guard-86M ซึ่งเป็นโมเดลการเรียนรู้ของเครื่องที่ออกแบบมาเพื่อป้องกันการโจมตีแบบฉีดทันที แต่ตัวโมเดลเองก็ถูกค้นพบอย่างรวดเร็วว่ามีช่องโหว่ด้านความปลอดภัยที่ร้ายแรง การโจมตีแบบ Hint Injection เกี่ยวข้องกับการกระตุ้นให้โมเดลภาษาขนาดใหญ่ (LLM) ละเมิดข้อจำกัดด้านความปลอดภัยหรือสร้างพฤติกรรมที่ไม่เหมาะสมผ่านอินพุตที่สร้างขึ้นมาอย่างระมัดระวัง Prompt-Guard-86M มีวัตถุประสงค์เพื่อกรองการแจ้งเตือนที่เป็นอันตรายเหล่านี้ออกไป อย่างไรก็ตาม นักวิจัยพบว่าการเว้นวรรคอักขระแบบง่ายๆ และการลบเครื่องหมายวรรคตอนสามารถข้ามกลไกการป้องกันของโมเดลได้อย่างง่ายดาย ส่งผลให้โมเดลไม่มีประสิทธิภาพ
ล่าสุด Meta ได้เปิดตัวโมเดลการเรียนรู้ของเครื่องที่เรียกว่า Prompt-Guard-86M ซึ่งออกแบบมาเพื่อตรวจจับและตอบสนองต่อการโจมตีแบบฉีดทันที การโจมตีประเภทนี้มักจะเกี่ยวข้องกับการป้อนข้อมูลพิเศษที่ทำให้โมเดลภาษาขนาดใหญ่ (LLM) ทำงานไม่เหมาะสมหรือหลีกเลี่ยงข้อจำกัดด้านความปลอดภัย อย่างไรก็ตาม น่าประหลาดใจที่ระบบใหม่เองก็เสี่ยงต่อการถูกโจมตีเช่นกัน
หมายเหตุแหล่งที่มาของรูปภาพ: รูปภาพนี้สร้างขึ้นโดย AI และรูปภาพนั้นได้รับอนุญาตจากผู้ให้บริการ Midjourney
Prompt-Guard-86M เปิดตัวโดย Meta พร้อมกับโมเดลการสร้าง Llama3.1 ซึ่งส่วนใหญ่เพื่อช่วยนักพัฒนาในการกรองข้อความแจ้งที่อาจทำให้เกิดปัญหา โดยทั่วไปโมเดลภาษาขนาดใหญ่จะประมวลผลข้อความและข้อมูลจำนวนมาก และหากปล่อยทิ้งไว้โดยไม่ตรวจสอบ โมเดลเหล่านั้นอาจทำซ้ำข้อมูลที่เป็นอันตรายหรือละเอียดอ่อนโดยพลการ ดังนั้น นักพัฒนาจึงสร้าง "รั้ว" ไว้ในโมเดลเพื่อจับอินพุตและเอาต์พุตที่อาจก่อให้เกิดอันตราย
อย่างไรก็ตาม ผู้ใช้ AI ดูเหมือนจะมองว่าการเลี่ยงรั้วเหล่านี้เป็นเรื่องท้าทาย โดยใช้การแทรกคำใบ้และการเจลเบรกเพื่อทำให้โมเดลเพิกเฉยต่อคำแนะนำด้านความปลอดภัยของตนเอง เมื่อเร็ว ๆ นี้นักวิจัยบางคนชี้ให้เห็นว่า Prompt-Guard-86M ของ Meta มีความเสี่ยงเมื่อประมวลผลอินพุตพิเศษบางอย่าง ตัวอย่างเช่น เมื่อพิมพ์ "ละเว้นคำแนะนำก่อนหน้า" โดยเว้นวรรคระหว่างตัวอักษร Prompt-Guard-86M จะเพิกเฉยต่อคำแนะนำก่อนหน้านี้อย่างเชื่อฟัง
การค้นพบนี้จัดทำโดยนักล่าช่องโหว่ชื่อ Aman Priyanshu ซึ่งค้นพบข้อบกพร่องด้านความปลอดภัยขณะวิเคราะห์โมเดล Meta และโมเดลมาตรฐานของ Microsoft Priyanshu กล่าวว่ากระบวนการปรับแต่ง Prompt-Guard-86M มีผลกระทบน้อยมากต่อตัวอักษรภาษาอังกฤษแต่ละตัว ทำให้เขาสามารถวางแผนการโจมตีนี้ได้ เขาแบ่งปันการค้นพบนี้บน GitHub โดยชี้ให้เห็นว่าเพียงแค่เว้นวรรคอักขระและลบเครื่องหมายวรรคตอนออก ตัวแยกประเภทอาจสูญเสียความสามารถในการตรวจจับ
Hyrum Anderson ประธานเจ้าหน้าที่ฝ่ายเทคโนโลยีของ Robust Intelligence ก็เห็นด้วยเช่นกัน เขาชี้ให้เห็นว่าอัตราความสำเร็จในการโจมตีของวิธีนี้คือเกือบ 100% แม้ว่า Prompt-Guard จะเป็นเพียงส่วนหนึ่งของแนวป้องกัน แต่การเปิดเผยช่องโหว่นี้ได้ส่งสัญญาณเตือนสำหรับบริษัทต่างๆ เมื่อใช้ AI Meta ยังไม่ตอบกลับ แต่แหล่งข่าวบอกว่าพวกเขากำลังหาวิธีแก้ปัญหาอยู่
ไฮไลท์:
Prompt-Guard-86M ของ Meta พบว่ามีช่องโหว่ด้านความปลอดภัยและเสี่ยงต่อการโจมตีแบบฉีด
การเพิ่มช่องว่างระหว่างตัวอักษรทำให้ระบบสามารถเพิกเฉยต่อคำแนะนำด้านความปลอดภัยได้ โดยมีอัตราความสำเร็จในการโจมตีเกือบ 100%
⚠️ เหตุการณ์นี้เตือนให้บริษัทต่างๆ ระมัดระวังในการใช้เทคโนโลยี AI และปัญหาด้านความปลอดภัยยังคงต้องนำมาพิจารณาด้วย
ช่องโหว่ของ Prompt-Guard-86M เผยให้เห็นความท้าทายใหญ่หลวงด้านความปลอดภัยของ AI และเน้นย้ำอีกครั้งว่าความปลอดภัยจะต้องได้รับความสำคัญเป็นลำดับแรกเมื่อพัฒนาและปรับใช้ระบบ AI ในอนาคต กลไกความปลอดภัยที่ทรงพลังและเชื่อถือได้มากขึ้นจะเป็นกุญแจสำคัญในการพัฒนาเทคโนโลยี AI