OpenAI 推出新AI 安全方法，可主動推理規則拒絕危險請求！

作者：Eve Cole 更新時間：2025-01-01 18:16:01

OpenAI 最新發布的o系列AI模型，旨在透過更深入的規則理解和推理能力，提升AI系統的安全性。有別於以往單純依靠範例學習，該模型能夠主動理解並應用安全指南，有效阻止有害請求。文章詳細介紹了o1模型的三階段訓練過程，以及其在安全性測試中超越其他主流AI系統的表現。然而，即使是改進後的o1模型，仍然存在被操縱的可能性，這凸顯了AI安全領域的持續挑戰。

OpenAI 公佈了一種新的AI 安全方法，旨在透過改變AI 系統處理安全規則的方式來提升其安全性。這種新的o 系列模型不再僅僅依賴透過範例學習好與壞行為，而是能夠理解並積極推理特定的安全指南。

OpenAI 的研究中舉了一個例子，當用戶試圖透過加密文字獲取非法活動的指示時，模型成功解碼了訊息，但拒絕了請求，並具體引用了將要違反的安全規則。這種逐步推理的過程顯示了模型如何有效地遵循相關的安全準則。

這款o1模型的訓練過程分為三個階段。首先，模型學習如何提供協助。接下來，透過監督學習，模型會研究特定的安全指南。最後，模型使用強化學習來實踐應用這些規則，這一步驟幫助模型真正理解並內化這些安全指南。

在OpenAI 的測試中，新推出的o1模型在安全性方面表現顯著優於其他主流系統，如GPT-4o、Claude3.5Sonnet 和Gemini1.5Pro。測試內容包括模型如何拒絕有害請求並允許合適請求的通過，結果顯示o1模型在準確性和抵禦越獄嘗試方面均取得了最高分。

OpenAI 的聯合創始人沃伊切赫・扎倫巴在社交平台上表示，他對這種「深思熟慮的對齊」工作感到非常自豪，認為這種推理模型可以以一種全新的方式進行對齊，特別是在在發展人工通用智慧（AGI）時，確保系統與人類價值一致是一項重大挑戰。

儘管OpenAI 聲稱取得了進展，然而名為「解放者普林尼」的駭客仍然展示了即便是新的o1和o1-Pro 模型也能被操縱以突破安全指南。普林尼成功讓模型生成成人內容，甚至分享製作莫洛托夫雞尾酒的指示，儘管系統起初拒絕了這些請求。這些事件凸顯控制這些複雜AI 系統的難度，因為它們是基於機率而非嚴格規則進行操作。

扎倫巴表示，OpenAI 有約100名員工專門從事AI 安全和與人類價值觀一致的工作。他對競爭對手的安全處理方式提出了質疑，尤其是埃隆・馬斯克的xAI 公司優先考慮市場增長而非安全措施，而安瑟羅比（Anthropic）最近推出了一款沒有適當保障的AI 代理，扎倫巴認為這會為OpenAI 帶來「巨大的負面回饋」。

官方部落格:https://openai.com/index/deliberative-alignment/

劃重點:

OpenAI 的新o 系列模型能主動推理安全規則，提升系統安全性。

o1模型在拒絕有害請求和準確性方面表現優於其他主流AI 系統。

儘管有改進，但新的模型仍可能被操縱，安全挑戰依舊嚴峻。

總而言之，OpenAI 的o 系列模型在AI 安全領域取得了顯著進展，但同時也暴露出大型語言模型安全性的複雜性和持續性挑戰。未來需要持續投入更多精力，才能真正有效地應對AI 安全風險。