Meta lanzó recientemente Prompt-Guard-86M, un modelo de aprendizaje automático diseñado para defenderse contra ataques de inyección rápida, pero rápidamente se descubrió que el modelo en sí tenía serias vulnerabilidades de seguridad. Los ataques de inyección de pistas implican inducir modelos de lenguaje grandes (LLM) para que violen las restricciones de seguridad o produzcan comportamientos inapropiados a través de entradas cuidadosamente diseñadas. Prompt-Guard-86M está destinado a filtrar estas indicaciones dañinas; sin embargo, los investigadores descubrieron que la simple eliminación del espaciado entre caracteres y la puntuación puede eludir fácilmente el mecanismo de defensa del modelo, haciéndolo ineficaz.
Recientemente, Meta lanzó un modelo de aprendizaje automático llamado Prompt-Guard-86M, diseñado para detectar y responder a ataques de inyección rápida. Este tipo de ataque suele implicar entradas especiales que hacen que un modelo de lenguaje grande (LLM) se comporte de forma inapropiada o eluda las restricciones de seguridad. Sorprendentemente, sin embargo, el nuevo sistema también corre el riesgo de ser atacado.
Nota sobre la fuente de la imagen: la imagen es generada por IA y la imagen está autorizada por el proveedor de servicios Midjourney
Meta lanzó Prompt-Guard-86M junto con su modelo de generación Llama3.1, principalmente para ayudar a los desarrolladores a filtrar mensajes que pueden causar problemas. Los modelos de lenguaje grandes normalmente procesan grandes cantidades de texto y datos y, si no se controlan, pueden repetir arbitrariamente información peligrosa o confidencial. Por lo tanto, los desarrolladores incorporaron "barandillas" en el modelo para capturar entradas y salidas que podrían causar daño.
Sin embargo, los usuarios de IA parecen ver eludir estas barreras como un desafío, utilizando la inyección de pistas y el jailbreak para hacer que los modelos ignoren sus propias instrucciones de seguridad. Recientemente, algunos investigadores señalaron que Prompt-Guard-86M de Meta es vulnerable al procesar algunas entradas especiales. Por ejemplo, al escribir "Ignorar instrucciones anteriores" con un espacio entre letras, Prompt-Guard-86M ignorará obedientemente las instrucciones anteriores.
El descubrimiento fue realizado por un cazador de vulnerabilidades llamado Aman Priyanshu, quien descubrió la falla de seguridad mientras analizaba los modelos Meta y los modelos de referencia de Microsoft. Priyanshu dijo que el proceso de ajuste de Prompt-Guard-86M tuvo muy poco impacto en las letras inglesas individuales, lo que le permitió idear este ataque. Compartió este hallazgo en GitHub, señalando que simplemente espaciando caracteres y eliminando la puntuación, el clasificador puede perder sus capacidades de detección.
Hyrum Anderson, director de tecnología de Robust Intelligence, también estuvo de acuerdo y señaló que la tasa de éxito del ataque con este método es casi del 100%. Aunque Prompt-Guard es solo una parte de la línea de defensa, la exposición de esta vulnerabilidad ha hecho sonar la alarma para las empresas cuando utilizan IA. Meta aún no ha respondido, pero las fuentes dicen que están buscando activamente una solución.
Reflejos:
Se descubrió que Prompt-Guard-86M de Meta tiene una vulnerabilidad de seguridad y es vulnerable a ataques de inyección rápida.
Al agregar espacios entre letras, se puede hacer que el sistema ignore las instrucciones de seguridad, con una tasa de éxito del ataque de casi el 100%.
⚠️ Este incidente recuerda a las empresas que deben tener cuidado al utilizar la tecnología de inteligencia artificial y que aún es necesario tener en cuenta las cuestiones de seguridad.
La vulnerabilidad de Prompt-Guard-86M expuso los enormes desafíos que enfrenta el campo de la seguridad de la IA y una vez más enfatizó que se debe dar prioridad a la seguridad al desarrollar e implementar sistemas de IA. En el futuro, mecanismos de seguridad más potentes y fiables serán la clave para el desarrollo de la tecnología de IA.