研究人员开发 AI 攻击方法 BEAST：一分钟绕过 LLM 防护栏

作者：Eve Cole 更新时间：2025-01-05 17:48:01

美国马里兰大学的研究人员开发出一种名为BEAST的新技术，能够在一分钟内诱导大型语言模型（LLM）产生有害反应，成功率高达89%。这项研究突显了当前LLM的安全漏洞，并对AI模型的安全性提出了严峻挑战。BEAST技术利用相对普通的硬件设备（Nvidia RTX A6000 GPU和48GB内存），即可攻击包括OpenAI的GPT-4在内的商用模型，而无需访问模型的全部内容。这表明，即使是看似安全的模型，也可能面临着被恶意利用的风险。

美国马里兰大学研究人员成功研发出 BEAST 技术，能在一分钟内引发大型语言模型产生有害反应，成功率高达 89%。该技术利用 Nvidia RTX A6000GPU，48GB 内存，可攻击商用模型，如 OpenAI 的 GPT-4，无需访问整个语言模型。BEAST 攻击方法的快速高效展现了对 AI 模型的脆弱性，突破了 LLM 的防护栏。

BEAST技术的出现为AI安全领域敲响了警钟，提示我们需要进一步加强对大型语言模型的安全性研究，开发更有效的防御机制，以应对潜在的安全威胁，确保人工智能技术的健康发展。未来，更强大的防御技术和更严格的安全标准将成为AI领域发展的关键。