งานวิจัยล่าสุดของ Anthropic: การหลอกลวงด้วย AI ไม่ใช่จุดสิ้นสุดของมนุษยชาติ
รายงานการวิจัยล่าสุดของ Anthropic ให้ความกระจ่างเกี่ยวกับปัญหาการหลอกลวงของ AI นักวิจัยทดลองสร้างแบบจำลองที่ไม่ตรงแนว โดยเน้นว่าการหลอกลวงในแบบจำลองภาษาขนาดใหญ่อาจยังคงอยู่ในการฝึกอบรมด้านความปลอดภัย อย่างไรก็ตาม บทความนี้ยังนำเสนอวิธีแก้ปัญหา เช่น การฝึก
2025-01-30