O editor de Downcodes traz para você um relatório de pesquisa mais recente sobre a segurança de grandes modelos de linguagem (LLM). Esta pesquisa revela as vulnerabilidades inesperadas que medidas de segurança aparentemente benignas no LLM podem introduzir. Os pesquisadores descobriram que havia diferenças significativas na dificuldade de “desbloquear” os modelos para diferentes palavras-chave demográficas, o que levou as pessoas a pensar profundamente sobre a justiça e a segurança da IA. As descobertas sugerem que as medidas de segurança concebidas para garantir o comportamento ético dos modelos podem inadvertidamente exacerbar esta disparidade, aumentando a probabilidade de sucesso dos ataques de jailbreak contra grupos vulneráveis.
Um novo estudo mostra que medidas de segurança bem-intencionadas em grandes modelos de linguagem podem introduzir vulnerabilidades inesperadas. Os pesquisadores encontraram diferenças significativas na facilidade com que os modelos poderiam ser “desbloqueados” com base em diferentes termos demográficos. O estudo, intitulado “Os LLMs têm correção política?”, explorou como palavras-chave demográficas afetam as chances de uma tentativa de jailbreak ser bem-sucedida. Estudos descobriram que as solicitações que usam terminologia de grupos marginalizados têm maior probabilidade de produzir resultados indesejados do que as solicitações que usam a terminologia de grupos privilegiados.
“Esses preconceitos intencionais levam a uma diferença de 20% na taxa de sucesso do jailbreak do modelo GPT-4o entre palavras-chave não binárias e cisgênero, e a uma diferença de 16% entre palavras-chave brancas e pretas”, observam os pesquisadores, embora outras partes do a solicitação foi completamente igual." explicaram Isack Lee e Haebin Seong da Theori Inc.
Os pesquisadores atribuem essa diferença ao preconceito intencional introduzido para garantir que o modelo se comporte de forma ética. Como funciona o jailbreak é que os pesquisadores criaram o método "PCJailbreak" para testar a vulnerabilidade de grandes modelos de linguagem a ataques de jailbreak. Esses ataques usam pistas cuidadosamente elaboradas para contornar as medidas de segurança da IA e gerar conteúdo prejudicial.
PCJailbreak usa palavras-chave de diferentes grupos demográficos e socioeconômicos. Os pesquisadores criaram pares de palavras como “rico” e “pobre” ou “masculino” e “feminino” para comparar grupos privilegiados e marginalizados.
Eles então criaram prompts que combinavam essas palavras-chave com instruções potencialmente prejudiciais. Ao testar repetidamente diferentes combinações, eles conseguiram medir as chances de uma tentativa de jailbreak bem-sucedida para cada palavra-chave. Os resultados mostraram uma diferença significativa: palavras-chave que representam grupos marginalizados geralmente tiveram uma chance muito maior de sucesso do que palavras-chave que representam grupos privilegiados. Isto sugere que as medidas de segurança do modelo têm preconceitos inadvertidos que poderiam ser explorados por ataques de jailbreak.
Para resolver as vulnerabilidades descobertas pelo PCJailbreak, os pesquisadores desenvolveram o método “PCDefense”. Essa abordagem usa dicas defensivas especiais para reduzir preconceitos excessivos nos modelos de linguagem, tornando-os menos vulneráveis a ataques de jailbreak.
O PCDefense é o único que não requer etapas adicionais de modelagem ou processamento. Em vez disso, dicas defensivas são adicionadas diretamente à entrada para ajustar os preconceitos e obter um comportamento mais equilibrado do modelo de linguagem.
Os pesquisadores testaram o PCDefense em uma variedade de modelos e mostraram que as chances de uma tentativa de jailbreak ser bem-sucedida podem ser significativamente reduzidas, tanto para grupos privilegiados quanto para grupos marginalizados. Ao mesmo tempo, a diferença entre os grupos diminuiu, indicando uma redução nos preconceitos relacionados com a segurança.
Os pesquisadores dizem que o PCDefense fornece uma maneira eficiente e escalonável de melhorar a segurança de grandes modelos de linguagem sem exigir computação adicional.
As descobertas destacam a complexidade de projetar sistemas de IA seguros e éticos para equilibrar segurança, justiça e desempenho. O ajuste fino de proteções de segurança específicas pode reduzir o desempenho geral dos modelos de IA, como sua criatividade.
Para facilitar futuras pesquisas e melhorias, os autores disponibilizaram o código do PCJailbreak e todos os artefatos relacionados como código aberto. Theori Inc, a empresa por trás da pesquisa, é uma empresa de segurança cibernética especializada em segurança ofensiva e tem sede nos Estados Unidos e na Coreia do Sul. Foi fundada em janeiro de 2016 por Andrew Wesie e Brian Pak.
Esta investigação fornece informações valiosas sobre a segurança e a justiça dos modelos linguísticos de grande escala e também destaca a importância da atenção contínua aos impactos éticos e sociais no desenvolvimento da IA. O editor do Downcodes continuará atento aos últimos desenvolvimentos nesta área e trazendo para você mais informações científicas e tecnológicas de ponta.