Pesquisadores desenvolvem método de ataque de IA BEAST: contornando a proteção do LLM em um minuto

Autor：Eve Cole Data da Última Atualização：2025-01-05 17:48:01

Pesquisadores da Universidade de Maryland desenvolveram uma nova tecnologia chamada BEAST que pode induzir reações prejudiciais em grandes modelos de linguagem (LLM) em um minuto, com uma taxa de sucesso de 89%. Esta investigação destaca as vulnerabilidades de segurança dos atuais LLMs e coloca sérios desafios à segurança dos modelos de IA. A tecnologia BEAST utiliza hardware relativamente comum (GPU Nvidia RTX A6000 e 48 GB de memória) para atacar modelos comerciais, incluindo o GPT-4 da OpenAI, sem acessar todo o conteúdo do modelo. Isto mostra que mesmo modelos aparentemente seguros podem correr o risco de serem explorados para fins maliciosos.

Pesquisadores da Universidade de Maryland, nos Estados Unidos, desenvolveram com sucesso a tecnologia BEAST, que pode desencadear reações prejudiciais em grandes modelos de linguagem em um minuto, com uma taxa de sucesso de até 89%. Essa tecnologia utiliza GPU Nvidia RTX A6000 com 48 GB de memória e pode atacar modelos comerciais, como o GPT-4 da OpenAI, sem acessar todo o modelo de linguagem. A velocidade e eficiência do método de ataque BEAST demonstram a vulnerabilidade ao modelo de IA e rompem a barreira de proteção do LLM.

O surgimento da tecnologia BEAST soou um alarme no campo da segurança da IA, lembrando-nos que precisamos fortalecer ainda mais a pesquisa de segurança em grandes modelos linguísticos, desenvolver mecanismos de defesa mais eficazes para lidar com potenciais ameaças à segurança e garantir o desenvolvimento saudável de tecnologias artificiais. tecnologia de inteligência. No futuro, tecnologias de defesa mais poderosas e padrões de segurança mais rígidos se tornarão a chave para o desenvolvimento do campo da IA.