El equipo de seguridad de IA de Microsoft realizó una prueba de seguridad de dos años en más de 100 productos de IA generativa para identificar debilidades y riesgos éticos. Los resultados de las pruebas cambiaron algunas percepciones tradicionales sobre la seguridad de la IA y enfatizaron el papel insustituible de la experiencia humana en el campo de la seguridad de la IA. Las pruebas han demostrado que los ataques más eficaces no siempre son técnicamente complejos, sino más bien métodos simples de "ingeniería rápida", como ocultar instrucciones maliciosas en el texto de una imagen para eludir los mecanismos de seguridad. Esto muestra que la seguridad de la IA debe tener en cuenta tanto los medios técnicos como las consideraciones humanísticas.
Desde 2021, el equipo de seguridad de IA de Microsoft ha probado más de 100 productos de IA generativa para buscar debilidades y problemas éticos. Sus hallazgos desafían algunas suposiciones comunes sobre la seguridad de la IA y resaltan la importancia continua de la experiencia humana.
Resulta que los ataques más eficaces no siempre son los más sofisticados. “Los verdaderos piratas informáticos no calculan gradientes, sino que utilizan ingeniería rápida”, señala un estudio citado en el informe de Microsoft, que comparó la investigación de seguridad de la IA con la práctica del mundo real. En una prueba, el equipo evitó con éxito las funciones de seguridad de un generador de imágenes simplemente ocultando instrucciones dañinas dentro del texto de la imagen, sin necesidad de matemáticas complicadas.
El toque humano sigue siendo importante
Si bien Microsoft ha desarrollado PyRIT, una herramienta de código abierto que puede automatizar las pruebas de seguridad, el equipo enfatiza que el juicio humano no puede ser reemplazado. Esto se hizo especialmente evidente cuando probaron cómo el chatbot manejaba situaciones delicadas, como hablar con alguien que estaba emocionalmente angustiado. Evaluar estos escenarios requiere tanto experiencia psicológica como una comprensión profunda de los posibles impactos en la salud mental.
El equipo también se basó en el conocimiento humano al investigar el sesgo de la IA. En un ejemplo, examinaron el sesgo de género en un generador de imágenes creando imágenes de diferentes ocupaciones (sin especificar el género).
Surgen nuevos desafíos de seguridad
La integración de la inteligencia artificial en las aplicaciones cotidianas crea nuevas vulnerabilidades. En una prueba, el equipo manipuló con éxito el modelo de lenguaje para crear escenarios de fraude convincentes. Cuando se combina con la tecnología de texto a voz, esto crea un sistema que puede interactuar con las personas de maneras peligrosamente realistas.
Los riesgos no se limitan a problemas específicos de la inteligencia artificial. El equipo descubrió una vulnerabilidad de seguridad heredada (SSRF) en una herramienta de procesamiento de video de inteligencia artificial, lo que demuestra que estos sistemas enfrentan desafíos de seguridad nuevos y antiguos.
Necesidades de seguridad actuales
El estudio se centra específicamente en los riesgos de la “IA responsable”, es decir, situaciones en las que los sistemas de IA podrían generar contenido dañino o éticamente cuestionable. Estas preguntas son particularmente difíciles de abordar porque a menudo dependen en gran medida del contexto y la interpretación personal.
El equipo de Microsoft descubrió que la exposición involuntaria de usuarios comunes a contenido problemático era más preocupante que los ataques intencionales porque sugería que las medidas de seguridad no estaban funcionando como se esperaba durante el uso normal.
Los hallazgos dejan claro que la seguridad de la IA no es una solución única. Microsoft recomienda continuar buscando y reparando vulnerabilidades, seguido de más pruebas. Sugirieron que esto debería estar respaldado por regulaciones e incentivos financieros, lo que encarecería los ataques exitosos.
El equipo de investigación dice que todavía quedan varias preguntas clave que deben responderse: ¿Cómo identificamos y controlamos capacidades de IA potencialmente peligrosas, como la persuasión y el engaño? ¿Cómo adaptamos las pruebas de seguridad a diferentes idiomas y culturas? ¿Compartir esto de forma estandarizada?
Con todo, la investigación de Microsoft enfatiza la importancia de mejorar continuamente las medidas de seguridad de la IA. Se requiere una combinación de medios técnicos y atención humanista para abordar eficazmente los desafíos de seguridad de la IA y promover el desarrollo responsable de la tecnología de la IA.