Los investigadores desarrollan el método de ataque de IA BEAST: sortear la barrera de seguridad de LLM en un minuto

Autor：Eve Cole Fecha de actualización：2025-01-05 17:48:01

Investigadores de la Universidad de Maryland han desarrollado una nueva tecnología llamada BEAST que puede inducir reacciones dañinas en modelos de lenguaje grandes (LLM) en un minuto, con una tasa de éxito del 89%. Esta investigación destaca las vulnerabilidades de seguridad de los LLM actuales y plantea serios desafíos a la seguridad de los modelos de IA. La tecnología BEAST utiliza hardware relativamente común (GPU Nvidia RTX A6000 y 48 GB de memoria) para atacar modelos comerciales, incluido el GPT-4 de OpenAI, sin acceder a todo el contenido del modelo. Esto muestra que incluso los modelos aparentemente seguros pueden correr el riesgo de ser explotados con fines maliciosos.

Investigadores de la Universidad de Maryland en Estados Unidos han desarrollado con éxito la tecnología BEAST, que puede desencadenar reacciones dañinas en modelos de lenguaje de gran tamaño en un minuto, con una tasa de éxito de hasta el 89%. Esta tecnología utiliza la GPU Nvidia RTX A6000 con 48 GB de memoria y puede atacar modelos comerciales, como el GPT-4 de OpenAI, sin acceder al modelo de lenguaje completo. La velocidad y eficiencia del método de ataque BEAST demuestra la vulnerabilidad del modelo de IA y rompe la barrera de seguridad de LLM.

La aparición de la tecnología BEAST ha hecho sonar una alarma en el campo de la seguridad de la IA, recordándonos que debemos fortalecer aún más la investigación de seguridad en grandes modelos de lenguaje, desarrollar mecanismos de defensa más efectivos para hacer frente a posibles amenazas a la seguridad y garantizar el desarrollo saludable de las tecnologías artificiales. tecnología de inteligencia. En el futuro, una tecnología de defensa más poderosa y estándares de seguridad más estrictos se convertirán en la clave para el desarrollo del campo de la IA.