微軟AI安全團隊對100多種生成式AI產品進行了為期兩年的安全測試,旨在發現其薄弱環節和道德風險。測試結果顛覆了一些關於AI安全的傳統認知,強調了人類專業知識在AI安全領域中不可取代的作用。測試發現,最有效的攻擊並非總是技術層面上的複雜攻破,而是利用簡單的「快速工程」方法,例如將惡意指令隱藏在圖像文字中就能繞過安全機制。 這說明AI安全需要兼顧技術手段和人文考量。
自2021年以來,微軟的AI 安全團隊對100多種生成式AI 產品進行了測試,以尋找薄弱環節和道德問題。他們的發現挑戰了一些關於AI 安全的常見假設,並強調了人類專業知識的持續重要性。
事實證明,最有效的攻擊並不總是最複雜的攻擊。微軟報告中引用的一項研究指出:「真正的駭客不會計算梯度,而是使用快速工程。」該研究將人工智慧安全研究與現實世界的實踐進行了比較。在一次測試中,該團隊僅透過將有害指令隱藏在圖像文字中就成功繞過了圖像生成器的安全功能——無需複雜的數學運算。
人情味依然重要
雖然微軟已經開發了PyRIT,一種可以自動進行安全測試的開源工具,但團隊強調,人類的判斷力是無法被取代的。當他們測試聊天機器人如何處理敏感情況(例如與情緒困擾的人交談)時,這一點變得特別明顯。評估這些場景既需要心理學專業知識,也需要對潛在心理健康影響的深刻理解。
在調查人工智慧偏見時,該團隊也依賴人類的洞察力。在一個例子中,他們透過創建不同職業的圖片(不指定性別)來檢查圖像生成器中的性別偏見。
新的安全挑戰出現
人工智慧與日常應用的整合帶來了新的漏洞。在一次測試中,團隊成功操縱語言模型,創造出令人信服的詐欺場景。當與文字轉語音技術結合時,這就創造了一個可以以危險的逼真方式與人互動的系統。
風險並不限於人工智慧特有的問題。該團隊在一款人工智慧視訊處理工具中發現了一個傳統的安全漏洞(SSRF),顯示這些系統面臨新舊安全挑戰。
持續的安全需求
這項研究特別關注「負責任的人工智慧」風險,即人工智慧系統可能產生有害或有道德問題的內容的情況。這些問題特別難以解決,因為它們通常嚴重依賴背景和個人解讀。
微軟團隊發現,普通用戶無意接觸有問題的內容比故意攻擊更令人擔憂,因為這表明安全措施在正常使用過程中沒有按預期發揮作用。
研究結果清楚地表明,人工智慧安全並非一次解決。微軟建議持續尋找並修復漏洞,然後進行更多測試。他們建議,這需要有法規和財務激勵措施的支持,使成功的攻擊更加昂貴。
研究團隊表示,仍有幾個關鍵問題需要解決:我們如何識別和控制具有潛在危險的人工智慧能力,如說服和欺騙?我們如何根據不同的語言和文化調整安全測試?公司如何以標準化的方式分享他們的方法和結果?
總而言之,微軟的研究強調了持續改進AI安全措施的重要性,需要結合技術手段和人文關懷,才能有效應對AI安全挑戰,並促進AI技術的負責任發展。