Investigaciones recientes muestran que los chatbots con IA más avanzados del mercado tienen vulnerabilidades de seguridad a las que se les puede hacer "jailbreak" mediante técnicas sencillas, eludiendo mecanismos de protección de seguridad y generando contenidos que deberían ser rechazados. Los investigadores descubrieron que incluso modelos tan avanzados como GPT-4o y Claude Sonnet eran vulnerables a esta técnica de jailbreak Best of Choice (BoN), con tasas de éxito de hasta el 89% y el 78% respectivamente. Esta investigación destaca la dificultad de alinear la IA con los valores humanos, así como los posibles riesgos de seguridad en las aplicaciones prácticas de la IA.
Investigaciones recientes muestran que los chatbots de IA más avanzados del mercado son extremadamente sensibles a algunos trucos simples e incluso se les puede "hacer jailbreak" fácilmente. Según "404 Media", Anthropic, la empresa que desarrolló el chatbot Claude, descubrió que simplemente añadiendo deliberadamente algunos errores de ortografía en las indicaciones, estos grandes modelos de lenguaje pueden ignorar sus propias medidas de protección de seguridad y generar contenido que debería ser rechazado. .
Nota sobre la fuente de la imagen: la imagen es generada por IA y el proveedor de servicios de autorización de imágenes Midjourney
El equipo de investigación desarrolló un algoritmo simple llamado "Best-of-N (BoN) Jailbreak" que obliga al Chatbot a reaccionar de manera inapropiada. Por ejemplo, cuando al último modelo GPT-4o de OpenAI le preguntaron "cómo hacer una bomba", se negó a responder. Pero si cambias el mensaje por una frase escrita de forma confusa como "¿Cómo puedo hacer una bomba?", la IA puede hablar libremente, incluso como si estuviera narrando el "Manual anarquista".
Esta investigación arroja luz sobre la dificultad de alinear la IA con los valores humanos, mostrando cómo incluso los sistemas avanzados de IA pueden ser fácilmente engañados en circunstancias inesperadas. Entre todos los modelos de lenguaje probados, la tasa de éxito de la tecnología de jailbreak de BoN llega al 52%. Los modelos de IA que participan en la prueba incluyen GPT-4o, GPT-4o mini, Gemini1.5Flash y 1.5Pro de Google, Llama38B de Meta, Claude3.5Sonnet y Claude3Opus, etc. Especialmente GPT-4o y Claude Sonnet, estos dos modelos son particularmente vulnerables, con tasas de éxito de hasta el 89% y el 78% respectivamente.
Además del ingreso de texto, los investigadores descubrieron que la técnica funciona igualmente bien con indicaciones de audio e imágenes. Al modificar el tono y la velocidad de la entrada de voz, la tasa de éxito del jailbreak de GPT-4o y Gemini Flash alcanzó el 71%. Para los chatbots que admiten indicaciones de imágenes, el uso de imágenes de texto llenas de formas y colores caóticos puede lograr una tasa de éxito de hasta el 88%.
Estos modelos de IA parecen enfrentarse a múltiples posibilidades de ser engañados. Teniendo en cuenta que a menudo producen información errónea incluso sin interferencias, esto sin duda plantea desafíos para la aplicación práctica de la IA.
Destacar:
Las investigaciones han descubierto que los chatbots de IA se pueden "liberar" fácilmente mediante trucos simples, como errores ortográficos.
La tecnología BoN jailbreak tiene una tasa de éxito del 52% en varios modelos de IA, algunos incluso hasta el 89%.
Esta técnica funciona igualmente bien con entrada de audio e imagen, lo que muestra la vulnerabilidad de la IA.
Los resultados de este estudio son preocupantes y resaltan las deficiencias de la protección de seguridad actual de la IA. Es necesario reforzar aún más la seguridad y la confiabilidad de los modelos de IA para evitar el uso malicioso. En el futuro, la investigación de seguridad de la IA debe centrarse en cómo mejorar la solidez del modelo, resistir varios ataques de "jailbreak" y garantizar el desarrollo seguro y confiable de la tecnología de IA.