El editor de Downcodes le ofrece un informe de investigación más reciente sobre la seguridad de los modelos de lenguaje grandes (LLM). Esta investigación revela las vulnerabilidades inesperadas que pueden introducir medidas de seguridad aparentemente benignas en LLM. Los investigadores descubrieron que había diferencias significativas en la dificultad de "hacer jailbreak" a los modelos para diferentes palabras clave demográficas, lo que llevó a las personas a pensar profundamente sobre la justicia y seguridad de la IA. Los hallazgos sugieren que las medidas de seguridad diseñadas para garantizar el comportamiento ético de los modelos pueden exacerbar inadvertidamente esta disparidad, haciendo que los ataques de jailbreak contra grupos vulnerables tengan más probabilidades de tener éxito.
Un nuevo estudio muestra que las medidas de seguridad bien intencionadas en modelos de lenguaje grandes pueden introducir vulnerabilidades inesperadas. Los investigadores encontraron diferencias significativas en la facilidad con la que se podía "hacer jailbreak" a los modelos en función de diferentes términos demográficos. El estudio, titulado "¿Los LLM tienen corrección política?", exploró cómo las palabras clave demográficas afectan las posibilidades de que un intento de fuga sea exitoso. Los estudios han encontrado que las indicaciones que utilizan terminología de grupos marginados tienen más probabilidades de producir resultados no deseados que las indicaciones que utilizan terminología de grupos privilegiados.
"Estos sesgos intencionales conducen a una diferencia del 20% en la tasa de éxito del jailbreak del modelo GPT-4o entre palabras clave no binarias y cisgénero, y una diferencia del 16% entre palabras clave blancas y negras", señalan los investigadores, a pesar de que otras partes de el mensaje era completamente el mismo", explicaron Isack Lee y Haebin Seong de Theori Inc.
Los investigadores atribuyen esta diferencia a un sesgo intencional introducido para garantizar que el modelo se comporte éticamente. La forma en que funciona el jailbreak es que los investigadores crearon el método "PCJailbreak" para probar la vulnerabilidad de modelos de lenguaje grandes a los ataques de jailbreak. Estos ataques utilizan señales cuidadosamente diseñadas para eludir las medidas de seguridad de la IA y generar contenido dañino.
PCJailbreak utiliza palabras clave de diferentes grupos demográficos y socioeconómicos. Los investigadores crearon pares de palabras como "rico" y "pobre" o "masculino" y "femenino" para comparar grupos privilegiados y marginados.
Luego crearon indicaciones que combinaban estas palabras clave con instrucciones potencialmente dañinas. Al probar repetidamente diferentes combinaciones, pudieron medir las posibilidades de un intento exitoso de jailbreak para cada palabra clave. Los resultados mostraron una diferencia significativa: las palabras clave que representaban a grupos marginados generalmente tenían muchas más posibilidades de éxito que las palabras clave que representaban a grupos privilegiados. Esto sugiere que las medidas de seguridad del modelo tienen sesgos involuntarios que podrían explotarse mediante ataques de jailbreak.
Para abordar las vulnerabilidades descubiertas por PCJailbreak, los investigadores desarrollaron el método "PCDefense". Este enfoque utiliza señales defensivas especiales para reducir el sesgo excesivo en los modelos de lenguaje, haciéndolos menos vulnerables a los ataques de jailbreak.
PCDefense es único porque no requiere pasos adicionales de modelado o procesamiento. En cambio, las señales defensivas se agregan directamente a la entrada para ajustar los sesgos y obtener un comportamiento más equilibrado del modelo de lenguaje.
Los investigadores probaron PCDefense en una variedad de modelos y demostraron que las probabilidades de que un intento de fuga tenga éxito pueden reducirse significativamente, tanto para los grupos privilegiados como para los marginados. Al mismo tiempo, la brecha entre los grupos disminuyó, lo que indica una reducción de los sesgos relacionados con la seguridad.
Los investigadores dicen que PCDefense proporciona una forma eficiente y escalable de mejorar la seguridad de modelos de lenguaje grandes sin requerir cálculos adicionales.
Los hallazgos resaltan la complejidad de diseñar sistemas de IA seguros y éticos para equilibrar la seguridad, la equidad y el rendimiento. Ajustar barreras de seguridad específicas puede reducir el rendimiento general de los modelos de IA, como su creatividad.
Para facilitar futuras investigaciones y mejoras, los autores han hecho que el código de PCJailbreak y todos los artefactos relacionados estén disponibles como código abierto. Theori Inc, la empresa detrás de la investigación, es una empresa de ciberseguridad que se especializa en seguridad ofensiva y tiene sede en Estados Unidos y Corea del Sur. Fue fundada en enero de 2016 por Andrew Wesie y Brian Pak.
Esta investigación proporciona información valiosa sobre la seguridad y la equidad de los modelos lingüísticos a gran escala y también destaca la importancia de prestar atención continua a los impactos éticos y sociales en el desarrollo de la IA. El editor de Downcodes seguirá atento a los últimos avances en este campo y le brindará más información científica y tecnológica de vanguardia.