研究人員開發AI 攻擊方法BEAST：一分鐘繞過LLM 防護欄

作者：Eve Cole 更新時間：2025-01-05 17:48:01

美國馬裡蘭大學的研究人員開發出一種名為BEAST的新技術，能夠在一分鐘內誘發大型語言模型（LLM）產生有害反應，成功率高達89%。這項研究突顯了當前LLM的安全漏洞，並對AI模型的安全性提出了嚴峻挑戰。 BEAST技術利用相對普通的硬體設備（Nvidia RTX A6000 GPU和48GB記憶體），即可攻擊包括OpenAI的GPT-4在內的商用模型，而無需存取模型的全部內容。這表明，即使是看似安全的模型，也可能面臨被惡意利用的風險。

美國馬裡蘭大學研究人員成功研發出BEAST 技術，能在一分鐘內引發大型語言模型產生有害反應，成功率高達89%。該技術利用Nvidia RTX A6000GPU，48GB 內存，可攻擊商用模型，如OpenAI 的GPT-4，無需訪問整個語言模型。 BEAST 攻擊方法的快速高效展現了對AI 模型的脆弱性，突破了LLM 的防護欄。

BEAST技術的出現為AI安全領域敲響了警鐘，提示我們需要進一步加強對大型語言模型的安全性研究，開發更有效的防禦機制，以應對潛在的安全威脅，確保人工智慧技術的健康發展。未來，更強大的防禦技術和更嚴格的安全標準將成為AI領域發展的關鍵。