美國馬裡蘭大學的研究人員開發出一種名為BEAST的新技術,能夠在一分鐘內誘發大型語言模型(LLM)產生有害反應,成功率高達89%。這項研究突顯了當前LLM的安全漏洞,並對AI模型的安全性提出了嚴峻挑戰。 BEAST技術利用相對普通的硬體設備(Nvidia RTX A6000 GPU和48GB記憶體),即可攻擊包括OpenAI的GPT-4在內的商用模型,而無需存取模型的全部內容。這表明,即使是看似安全的模型,也可能面臨被惡意利用的風險。
美國馬裡蘭大學研究人員成功研發出BEAST 技術,能在一分鐘內引發大型語言模型產生有害反應,成功率高達89%。該技術利用Nvidia RTX A6000GPU,48GB 內存,可攻擊商用模型,如OpenAI 的GPT-4,無需訪問整個語言模型。 BEAST 攻擊方法的快速高效展現了對AI 模型的脆弱性,突破了LLM 的防護欄。
BEAST技術的出現為AI安全領域敲響了警鐘,提示我們需要進一步加強對大型語言模型的安全性研究,開發更有效的防禦機制,以應對潛在的安全威脅,確保人工智慧技術的健康發展。 未來,更強大的防禦技術和更嚴格的安全標準將成為AI領域發展的關鍵。