Meta 近期發布了旨在防禦提示注入攻擊的機器學習模型Prompt-Guard-86M,但該模型本身很快就被發現存在嚴重的安全漏洞。提示注入攻擊是指透過精心設計的輸入,誘導大型語言模型(LLM) 違反安全限製或產生不當行為。 Prompt-Guard-86M 的本意是過濾掉這些有害的提示,然而,研究人員發現,簡單的字元間隔和標點符號去除就能輕鬆繞過該模型的防禦機制,導致其失效。
最近,Meta 推出了一款名為Prompt-Guard-86M 的機器學習模型,旨在偵測和應對提示注入攻擊。這類攻擊通常是透過特殊的輸入,讓大型語言模型(LLM)表現得不當或規避安全限制。不過,令人驚訝的是,這款新系統本身也暴露了被攻擊的風險。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
Prompt-Guard-86M 是Meta 與其Llama3.1生成模型一起推出的,主要是為了幫助開發者過濾掉那些可能會導致問題的提示。大型語言模型通常會處理大量的文字和數據,如果不加以限制,它們可能會隨意重複危險或敏感的資訊。因此,開發者在模型中加入了“護欄”,用於捕捉那些可能導致傷害的輸入和輸出。
然而,使用AI 的使用者似乎將繞過這些護欄視為一項挑戰,採用提示注入和越獄的方式來讓模型忽略自身的安全指令。最近,有研究人員指出,Meta 的Prompt-Guard-86M 在處理一些特殊輸入時顯得不堪一擊。例如,當輸入「Ignore previous instructions」 並在字母之間加上空格,Prompt-Guard-86M 竟然會乖乖地忽視先前的指令。
這項發現是由一位名叫Aman Priyanshu 的漏洞獵人提出的,他在分析Meta 模型和微軟的基準模型時,發現了這個安全漏洞。 Priyanshu 表示,微調Prompt-Guard-86M 的過程對單一英文字母的影響非常小,因此他能夠設計出這種攻擊方式。他在GitHub 上分享了這項發現,指出透過簡單字元間隔和去除標點符號的方式,可以讓分類器失去偵測能力。
而Robust Intelligence 的技術長Hyrum Anderson 也對此表示贊同,他指出,這種方式的攻擊成功率幾乎接近100%。雖然Prompt-Guard 只是防線的一部分,但這個漏洞的曝光確實企業在使用AI 時敲響了警鐘。 Meta 方面尚未對此作出回應,但有消息稱他們正在積極尋找解決方案。
劃重點:
Meta 的Prompt-Guard-86M 被發現有安全漏洞,容易受到提示注入攻擊。
透過在字母之間添加空格,可以讓系統忽略安全指令,攻擊成功率幾乎達到100%。
⚠️ 這起事件提醒企業在使用AI 技術時需謹慎,安全性問題仍需重視。
Prompt-Guard-86M 的漏洞暴露了AI 安全領域面臨的巨大挑戰,也再次強調了在開發和部署AI 系統時,必須優先考慮安全性。 未來,更強大、更可靠的安全機制是AI科技發展的關鍵。