本文探討了Anthropic公司對AI模型Claude3.5安全防護體系的測試結果。研究人員通過一個為期六天的公開挑戰賽,測試了其新型安全機制——體質分類器的有效性。參與者試圖繞過Claude3.5的所有安全防護措施,最終成功攻破了所有八個安全級別,引發了對AI安全防護的深入討論。雖然挑戰者成功突破,但並沒有發現通用的“越獄方法”,這表明AI安全防護仍存在挑戰,但並非完全不可攻破。
在短短六天內,參與者成功繞過了Anthropic人工智能(AI)模型Claude3.5的所有安全防護措施,這一突破為AI安全防護領域帶來了新的討論。前OpenAI對齊團隊成員、現就職於Anthropic的Jan Leike在X平台宣布,一名參與者成功攻破了所有八個安全級別。這項集體努力涉及了約3,700小時的測試和來自參與者的300,000條消息。
儘管挑戰者成功突破,但Leike強調,目前還沒有人能夠提出一種通用的“越獄方法”來一次性解決所有安全挑戰。這意味著儘管存在突破,依然無法找到一種萬能的方式來繞過所有的安全防護。
體質分類器的挑戰與改進
隨著AI技術的日益強大,如何保護它們免受操控和濫用,特別是在涉及有害輸出時,成為了越來越重要的問題。 Anthropic為此開發了一種新型安全方法——體質分類器,專門防止通用越獄行為的發生。該方法通過預設規則來判斷輸入內容是否可能操控模型,進而防止危險響應。
為了測試這一系統的有效性,Anthropic在兩個月的時間裡招募了183名參與者,嘗試突破Claude3.5模型的安全防護。參與者被要求嘗試繞過安全機制,使Claude回答十個“禁忌問題”。儘管提供了15,000美元獎金並進行了近3,000小時的測試,但沒有人能繞過所有的安全防護。
早期版本的體質分類器有一些問題,包括錯誤標記無害請求為危險請求以及需要大量計算能力。但隨著後續的改進,這些問題得到了有效解決。測試數據顯示,未經保護的Claude模型有86%的操控嘗試得以通過,而經過保護的版本則阻止了超過95%的操控嘗試,儘管該系統仍需要較高的計算能力。
合成訓練數據與未來安全挑戰
該安全系統基於合成訓練數據,使用預定義規則構建模型的“憲法”,這些規則決定了哪些輸入是允許的,哪些是禁止的。通過這些合成示例訓練出來的分類器可以有效識別可疑的輸入。然而,研究人員承認,這一系統並非完美無缺,無法應對所有形式的通用越獄攻擊,因此建議結合其他安全措施使用。
為了進一步加強該系統的驗證,Anthropic在2025年2月3日至10日之間發布了公開演示版本,邀請安全專家參與挑戰,結果將通過後續更新與大家分享。
這場關於AI安全的較量展示了AI模型防護面臨的巨大挑戰和復雜性。隨著技術不斷進步,如何在確保安全的同時提升模型的功能性,依然是AI行業亟待解決的重要課題。
總而言之,此次安全挑戰賽的結果既揭示了AI安全防護的不足,也展示了Anthropic在提升AI安全方面的努力和進步。未來,AI安全仍需持續改進和完善,以應對不斷演變的挑戰。