ทีมรักษาความปลอดภัยของ Microsoft AI ดำเนินการทดสอบความปลอดภัยสองปีของผลิตภัณฑ์ AI รุ่นมากกว่า 100 รุ่นโดยมีวัตถุประสงค์เพื่อค้นหาการเชื่อมโยงที่อ่อนแอและความเสี่ยงทางศีลธรรม ผลการทดสอบทำให้ความรู้ความเข้าใจแบบดั้งเดิมเกี่ยวกับความปลอดภัยของ AI เน้นบทบาทที่ไม่สามารถถูกแทนที่ได้ของความรู้วิชาชีพของมนุษย์ในด้านความปลอดภัยของ AI การทดสอบพบว่าการโจมตีที่มีประสิทธิภาพมากที่สุดไม่ได้เป็นการโจมตีที่ซับซ้อนในระดับเทคนิค แต่การใช้วิธี "วิศวกรรมเร็ว" อย่างง่าย นี่แสดงให้เห็นว่าความปลอดภัยของ AI จำเป็นต้องคำนึงถึงวิธีการทางเทคนิคและการพิจารณาอย่างเห็นอกเห็นใจ
ตั้งแต่ปี 2564 ทีมงาน AI Security ของ Microsoft ได้ทดสอบผลิตภัณฑ์ AI มากกว่า 100 ประเภทเพื่อค้นหาการเชื่อมโยงที่อ่อนแอและปัญหาทางศีลธรรม การค้นพบของพวกเขาท้าทายสมมติฐานทั่วไปเกี่ยวกับความปลอดภัยของ AI และเน้นความสำคัญอย่างต่อเนื่องของความรู้วิชาชีพของมนุษย์
ปรากฎว่าการโจมตีที่มีประสิทธิภาพมากที่สุดไม่ใช่การโจมตีที่ซับซ้อนที่สุดเสมอไป การศึกษาที่ยกมาในรายงานของ Microsoft ระบุว่า: "แฮ็กเกอร์ตัวจริงจะไม่คำนวณการไล่ระดับสี แต่ใช้วิศวกรรมที่รวดเร็ว" ในการทดสอบทีมประสบความสำเร็จในการหลีกเลี่ยงฟังก์ชั่นความปลอดภัยของเครื่องกำเนิดภาพโดยซ่อนคำแนะนำที่เป็นอันตรายในข้อความภาพ -ไม่มีการดำเนินการทางคณิตศาสตร์ที่ซับซ้อนที่จำเป็น
รสชาติของมนุษย์ยังคงมีความสำคัญ
แม้ว่า Microsoft ได้พัฒนา Pyrit แต่เครื่องมือโอเพ่นซอร์สที่สามารถทดสอบการทดสอบความปลอดภัยโดยอัตโนมัติทีมเน้นว่าการตัดสินของมนุษย์ไม่สามารถเปลี่ยนได้ สิ่งนี้จะเห็นได้ชัดโดยเฉพาะอย่างยิ่งเมื่อพวกเขาทดสอบว่าหุ่นยนต์แชทจัดการกับสถานการณ์ที่ละเอียดอ่อนได้อย่างไร (เช่นการพูดคุยกับคนที่มีปัญหาด้านอารมณ์) การประเมินสถานการณ์เหล่านี้ต้องการความรู้ทางจิตวิทยาและความเข้าใจอย่างลึกซึ้งเกี่ยวกับผลกระทบของสุขภาพจิตที่อาจเกิดขึ้น
เมื่อตรวจสอบอคติปัญญาประดิษฐ์ทีมก็พึ่งพาความเข้าใจของมนุษย์ ในตัวอย่างหนึ่งพวกเขาตรวจสอบอคติทางเพศในเครื่องกำเนิดภาพโดยการสร้างรูปภาพของอาชีพที่แตกต่างกัน (ไม่มีเพศ)
ความท้าทายด้านความปลอดภัยใหม่ปรากฏขึ้น
การผสมผสานของปัญญาประดิษฐ์และแอพพลิเคชั่นรายวันนำมาซึ่งช่องโหว่ใหม่ ในการทดสอบทีมประสบความสำเร็จในการจัดการรูปแบบภาษาและสร้างฉากการฉ้อโกงที่น่าเชื่อถือ เมื่อรวมกับเทคโนโลยีการเปลี่ยนผ่านข้อความสิ่งนี้จะสร้างระบบที่สามารถโต้ตอบกับผู้คนในวิธีที่อันตราย
ความเสี่ยงไม่ได้ จำกัด อยู่เฉพาะปัญหาที่เป็นเอกลักษณ์ของปัญญาประดิษฐ์ ทีมพบช่องโหว่ด้านความปลอดภัยแบบดั้งเดิม (SSRF) ในเครื่องมือประมวลผลวิดีโอปัญญาประดิษฐ์ซึ่งบ่งชี้ว่าระบบเหล่านี้เผชิญกับความท้าทายด้านความปลอดภัยใหม่และเก่า
ความต้องการด้านความปลอดภัยอย่างต่อเนื่อง
การศึกษาครั้งนี้ให้ความสนใจเป็นพิเศษกับความเสี่ยงของ "ปัญญาประดิษฐ์ที่รับผิดชอบ" นั่นคือระบบปัญญาประดิษฐ์อาจสร้างเนื้อหาของปัญหาที่เป็นอันตรายหรือทางศีลธรรม ปัญหาเหล่านี้ยากที่จะแก้ไขโดยเฉพาะอย่างยิ่งเพราะพวกเขามักจะขึ้นอยู่กับภูมิหลังและการตีความส่วนบุคคล
ทีม Microsoft พบว่าผู้ใช้ทั่วไปไม่มีความตั้งใจที่จะเปิดเผยปัญหาเกี่ยวกับปัญหามากกว่าการโจมตีโดยเจตนาเนื่องจากสิ่งนี้แสดงให้เห็นว่ามาตรการรักษาความปลอดภัยไม่ได้เล่นตามที่คาดไว้ในระหว่างกระบวนการใช้งานปกติ
ผลการวิจัยแสดงให้เห็นอย่างชัดเจนว่าความปลอดภัยของปัญญาประดิษฐ์ไม่ได้รับการแก้ไขในครั้งเดียว Microsoft แนะนำให้ค้นหาและซ่อมแซมช่องโหว่ต่อไปจากนั้นทำการทดสอบเพิ่มเติม พวกเขาแนะนำว่าสิ่งนี้ต้องการการสนับสนุนกฎระเบียบและสิ่งจูงใจทางการเงินเพื่อให้การโจมตีที่ประสบความสำเร็จมีราคาแพงกว่า
ทีมวิจัยระบุว่ายังมีประเด็นสำคัญหลายประการที่ต้องแก้ไข: เราจะรับรู้และควบคุมความสามารถของปัญญาประดิษฐ์ที่มีอันตรายที่อาจเกิดขึ้นเช่นการให้บริการและการหลอกลวงได้อย่างไร วัฒนธรรม?
โดยรวมแล้วการวิจัยของ Microsoft เน้นความสำคัญของการปรับปรุงมาตรการรักษาความปลอดภัย AI อย่างต่อเนื่อง