Anthropic 推出“體質分類器”：成功阻止95% 的模型越獄嘗試- AI文章

作者：Eve Cole 更新時間：2025-02-16 07:48:01

Anthropic公司最新研發的“體質分類器”為AI安全防護帶來了新的突破。這項技術旨在有效抵禦“通用越獄”攻擊，防止AI模型生成有害內容。通過大規模測試，183名參與者在高額獎金和充足時間的激勵下，仍未能完全繞過該系統的安全防護，這充分展現了“體質分類器”的強大防禦能力。本文將深入探討“體質分類器”的工作原理、改進過程以及未來發展方向。

人工智能公司Anthropic 近日宣布開發了一種名為“體質分類器”的新安全方法，旨在保護語言模型免受惡意操縱。該技術專門針對“通用越獄”——一種試圖系統性繞過所有安全措施的輸入方式，以防止AI 模型生成有害內容。

為了驗證這一技術的有效性，Anthropic 進行了一項大規模測試。公司招募了183名參與者，在兩個月內嘗試突破其防禦系統。參與者被要求通過輸入特定問題，試圖讓人工智能模型Claude3.5回答十個禁止的問題。儘管提供了高達15，000美元的獎金和約3，000小時的測試時間，但沒有任何參與者能夠完全繞過Anthropic 的安全措施。

Claude2，Anthropic，人工智能，聊天机器人克劳德

從挑戰中進步

Anthropic 的早期版本“體質分類器”存在兩個主要問題:一是將過多無害請求誤判為危險請求，二是需要大量計算資源。經過改進，新版分類器顯著降低了誤判率，並優化了計算效率。然而，自動測試顯示，儘管改進後的系統成功阻止了超過95% 的越獄嘗試，但仍需額外23.7% 的計算能力來運行。相比之下，未受保護的Claude 模型允許86% 的越獄嘗試通過。

基於合成數據的訓練

“體質分類器”的核心在於使用預定義的規則（稱為“憲法”）來區分允許和禁止的內容。系統通過生成多種語言和風格的合成訓練示例，訓練分類器識別可疑輸入。這種方法不僅提高了系統的準確性，還增強了其應對多樣化攻擊的能力。

儘管取得了顯著進展，Anthropic 的研究人員承認，該系統並非完美無缺。它可能無法應對所有類型的通用越獄攻擊，且未來可能會出現新的攻擊方法。因此，Anthropic 建議將“體質分類器”與其他安全措施結合使用，以提供更全面的保護。

公開測試與未來展望

為進一步測試系統的強度，Anthropic 計劃在2025年2月3日至10日期間發佈公開演示版本，邀請安全專家嘗試破解。測試結果將在後續更新中公佈。這一舉措不僅展示了Anthropic 對技術透明度的承諾，也為AI 安全領域的研究提供了寶貴的數據。

Anthropic 的“體質分類器”標誌著AI 模型安全防護的重要進展。隨著AI 技術的快速發展，如何有效防止模型被濫用已成為行業關注的焦點。 Anthropic 的創新為這一挑戰提供了新的解決方案，同時也為未來的AI 安全研究指明了方向。

Anthropic的“體質分類器”為AI安全領域樹立了新的標杆，其公開測試和持續改進的理念值得借鑒。未來，隨著技術的不斷發展和安全威脅的演變，“體質分類器”的完善和升級將對保障AI安全發揮更關鍵的作用。