A equipe de segurança de IA da Microsoft conduziu um teste de segurança de dois anos em mais de 100 produtos generativos de IA para identificar pontos fracos e riscos éticos. Os resultados dos testes derrubaram algumas percepções tradicionais sobre a segurança da IA e enfatizaram o papel insubstituível da experiência humana no campo da segurança da IA. Os testes descobriram que os ataques mais eficazes nem sempre são tecnicamente complexos, mas sim métodos simples de “engenharia rápida”, como ocultar instruções maliciosas no texto da imagem para contornar os mecanismos de segurança. Isto mostra que a segurança da IA precisa de ter em conta tanto os meios técnicos como as considerações humanísticas.
Desde 2021, a equipe de segurança de IA da Microsoft testou mais de 100 produtos generativos de IA para procurar pontos fracos e questões éticas. As suas descobertas desafiam alguns pressupostos comuns sobre a segurança da IA e destacam a importância contínua da experiência humana.
Acontece que os ataques mais eficazes nem sempre são os mais sofisticados. “Os verdadeiros hackers não calculam gradientes, mas usam engenharia rápida”, observa um estudo citado no relatório da Microsoft, que comparou a pesquisa de segurança de IA com a prática do mundo real. Em um teste, a equipe contornou com sucesso os recursos de segurança de um gerador de imagens simplesmente ocultando instruções prejudiciais no texto da imagem – sem necessidade de matemática complicada.
O toque humano ainda é importante
Embora a Microsoft tenha desenvolvido o PyRIT, uma ferramenta de código aberto que pode automatizar os testes de segurança, a equipe enfatiza que o julgamento humano não pode ser substituído. Isso ficou especialmente aparente quando testaram como o chatbot lidava com situações delicadas, como conversar com alguém que estava emocionalmente perturbado. A avaliação destes cenários requer conhecimentos psicológicos e uma compreensão profunda dos potenciais impactos na saúde mental.
A equipe também confiou na percepção humana ao investigar o viés da IA. Num exemplo, examinaram o preconceito de género num gerador de imagens, criando imagens de diferentes profissões (sem especificar o género).
Surgem novos desafios de segurança
A integração da inteligência artificial nas aplicações quotidianas cria novas vulnerabilidades. Num teste, a equipe manipulou com sucesso o modelo de linguagem para criar cenários de fraude convincentes. Quando combinado com a tecnologia de conversão de texto em fala, isso cria um sistema que pode interagir com as pessoas de maneiras perigosamente realistas.
Os riscos não se limitam a problemas específicos da inteligência artificial. A equipe descobriu uma vulnerabilidade de segurança legada (SSRF) em uma ferramenta de processamento de vídeo de inteligência artificial, demonstrando que esses sistemas enfrentam antigos e novos desafios de segurança.
Necessidades contínuas de segurança
O estudo centra-se especificamente nos riscos da “IA responsável”, ou seja, situações em que os sistemas de IA podem gerar conteúdos prejudiciais ou eticamente questionáveis. Estas questões são particularmente difíceis de abordar porque muitas vezes dependem fortemente do contexto e da interpretação pessoal.
A equipe da Microsoft descobriu que a exposição não intencional de usuários comuns a conteúdos problemáticos era mais preocupante do que ataques intencionais porque sugeria que as medidas de segurança não funcionavam conforme o esperado durante o uso normal.
As descobertas deixam claro que a segurança da IA não é uma solução única. A Microsoft recomenda continuar a encontrar e corrigir vulnerabilidades, seguido de mais testes. Isto precisaria de ser apoiado por regulamentos e incentivos financeiros, tornando os ataques bem-sucedidos mais caros, sugeriram.
A equipe de pesquisa diz que ainda há várias questões importantes que precisam ser respondidas: Como identificamos e controlamos capacidades de IA potencialmente perigosas, como persuasão e engano? Como podemos adaptar os testes de segurança a diferentes idiomas e culturas? compartilhar isso de forma padronizada Seus métodos e resultados?
Em suma, a investigação da Microsoft enfatiza a importância de melhorar continuamente as medidas de segurança da IA. Requer uma combinação de meios técnicos e cuidados humanísticos para lidar eficazmente com os desafios de segurança da IA e promover o desenvolvimento responsável da tecnologia de IA.