มานุษยวิทยาเปิดตัว "ตัวแยกประเภทรัฐธรรมนูญร่างกาย": ประสบความสำเร็จในการบล็อก 95% ของความพยายามของโมเดลในการเจลเบรค - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-16 07:48:01

"ตัวจําแนกร่างกาย" ล่าสุดของมานุษยวิทยาได้นำความก้าวหน้าใหม่มาสู่การป้องกันความปลอดภัยของ AI เทคโนโลยีนี้ได้รับการออกแบบมาเพื่อต่อต้านการโจมตี "สากลเจลเบรค" อย่างมีประสิทธิภาพและป้องกันไม่ให้โมเดล AI สร้างเนื้อหาที่เป็นอันตราย ผ่านการทดสอบขนาดใหญ่ผู้เข้าร่วม 183 คนยังไม่สามารถข้ามการป้องกันความปลอดภัยของระบบได้อย่างสมบูรณ์ภายใต้แรงจูงใจของโบนัสสูงและเวลาที่เพียงพอซึ่งแสดงให้เห็นถึงความสามารถในการป้องกันที่แข็งแกร่งของ "ตัวจําแนกทางกายภาพ" บทความนี้จะดำเนินการอภิปรายเชิงลึกเกี่ยวกับหลักการทำงานกระบวนการปรับปรุงและทิศทางการพัฒนาในอนาคตของ "ตัวจําแนกรัฐธรรมนูญทางกายภาพ"

มานุษยวิทยา บริษัท ปัญญาประดิษฐ์เพิ่งประกาศการพัฒนาวิธีการรักษาความปลอดภัยใหม่ที่เรียกว่า เทคโนโลยีนี้มุ่งเป้าไปที่“ Universal Jailbreak” โดยเฉพาะ - วิธีการป้อนข้อมูลที่พยายามหลีกเลี่ยงมาตรการรักษาความปลอดภัยทั้งหมดอย่างเป็นระบบเพื่อป้องกันไม่ให้โมเดล AI สร้างเนื้อหาที่เป็นอันตราย

เพื่อตรวจสอบประสิทธิภาพของเทคโนโลยีนี้มานุษยวิทยาได้ทำการทดสอบขนาดใหญ่ บริษัท คัดเลือกผู้เข้าร่วม 183 คนเพื่อพยายามทำลายระบบการป้องกันภายในสองเดือน ผู้เข้าร่วมถูกขอให้พยายามรับโมเดล AI Claude 3.5 เพื่อตอบคำถามต้องห้ามสิบคำถามโดยป้อนคำถามเฉพาะ แม้จะเสนอโบนัสสูงถึง $ 15,000 และเวลาทดสอบประมาณ 3,000 ชั่วโมง แต่ก็ไม่มีผู้เข้าร่วมที่สามารถข้ามมาตรการรักษาความปลอดภัยของมานุษยวิทยาได้อย่างสมบูรณ์

Claude2，Anthropic，人工智能，聊天机器人克劳德

ล่วงหน้าจากความท้าทาย

"ตัวแยกประเภทรัฐธรรมนูญร่างกาย" รุ่นแรก ๆ ของมานุษยวิทยามีปัญหาหลักสองประการ: หนึ่งคือการตัดสินคำขอที่ไม่เป็นอันตรายมากเกินไปเป็นคำขอที่อันตรายและอีกปัญหาหนึ่งคือต้องใช้ทรัพยากรการคำนวณจำนวนมาก หลังจากการปรับปรุงตัวจําแนกใหม่จะช่วยลดอัตราการตัดสินผิดอย่างมีนัยสำคัญและเพิ่มประสิทธิภาพการคำนวณประสิทธิภาพ อย่างไรก็ตามการทดสอบอัตโนมัติแสดงให้เห็นว่าในขณะที่ระบบที่ได้รับการปรับปรุงให้ดีขึ้นว่าได้ทำการบล็อกความพยายามในการแหกคุกมากกว่า 95% แต่ต้องใช้กำลังการประมวลผลเพิ่มเติม 23.7% ในการทำงาน ในทางตรงกันข้ามโมเดล Claude ที่ไม่มีการป้องกันช่วยให้ 86% ของความพยายามในการแหกคุก

การฝึกอบรมตามข้อมูลสังเคราะห์

แกนหลักของ“ ตัวจําแนกรัฐธรรมนูญ” คือการใช้กฎที่กำหนดไว้ล่วงหน้า (เรียกว่า“ รัฐธรรมนูญ”) เพื่อแยกความแตกต่างระหว่างที่ได้รับอนุญาตและต้องห้าม ระบบฝึกอบรมตัวแยกประเภทเพื่อระบุอินพุตที่น่าสงสัยโดยสร้างตัวอย่างการฝึกอบรมสังเคราะห์ในหลายภาษาและสไตล์ วิธีการนี้ไม่เพียง แต่ช่วยเพิ่มความแม่นยำของระบบ แต่ยังช่วยเพิ่มความสามารถในการจัดการกับการโจมตีที่หลากหลาย

แม้จะมีความคืบหน้าอย่างมีนัยสำคัญนักวิจัยมานุษยวิทยายอมรับว่าระบบไม่สมบูรณ์แบบ มันอาจไม่สามารถรับมือกับการโจมตีการแหกคุกสากลทุกประเภทและวิธีการโจมตีใหม่อาจเกิดขึ้นในอนาคต ดังนั้นมานุษยวิทยาแนะนำให้ใช้“ ตัวจําแนกรัฐธรรมนูญ” ร่วมกับมาตรการความปลอดภัยอื่น ๆ เพื่อให้การป้องกันที่ครอบคลุมมากขึ้น

การทดสอบสาธารณะและโอกาสในอนาคต

เพื่อทดสอบความแข็งแกร่งของระบบเพิ่มเติมมานุษยวิทยาวางแผนที่จะปล่อยรุ่นสาธิตสาธารณะระหว่างวันที่ 3 และ 10, 2025, เชิญผู้เชี่ยวชาญด้านความปลอดภัยพยายามที่จะถอดรหัส ผลการทดสอบจะประกาศในการอัปเดตที่ตามมา การเคลื่อนไหวนี้ไม่เพียงแสดงให้เห็นถึงความมุ่งมั่นของมานุษยวิทยาต่อความโปร่งใสทางเทคโนโลยี แต่ยังให้ข้อมูลที่มีค่าสำหรับการวิจัยในด้านความปลอดภัยของ AI

"ตัวจําแนกร่างกาย" ของมานุษยวิทยาเป็นความคืบหน้าสำคัญในการป้องกันความปลอดภัยของโมเดล AI ด้วยการพัฒนาอย่างรวดเร็วของเทคโนโลยี AI วิธีการป้องกันการใช้แบบจำลองในทางที่ผิดได้กลายเป็นจุดสนใจของความสนใจของอุตสาหกรรม นวัตกรรมของมานุษยวิทยานำเสนอโซลูชั่นใหม่สำหรับความท้าทายนี้ในขณะเดียวกันก็ชี้ให้เห็นทิศทางสำหรับการวิจัยความปลอดภัย AI ในอนาคต

"ตัวจําแนกร่างกาย" ของมานุษยวิทยากำหนดเกณฑ์มาตรฐานใหม่สำหรับสาขาการรักษาความปลอดภัย AI และแนวคิดของการทดสอบสาธารณะและการปรับปรุงอย่างต่อเนื่องนั้นคุ้มค่าที่จะเรียนรู้ ในอนาคตด้วยการพัฒนาเทคโนโลยีอย่างต่อเนื่องและวิวัฒนาการของภัยคุกคามความปลอดภัยการปรับปรุงและการอัพเกรด "ตัวแยกประเภททางกายภาพ" จะมีบทบาทสำคัญมากขึ้นในการสร้างความมั่นใจในความปลอดภัยของ AI