A Meta lançou recentemente o Prompt-Guard-86M, um modelo de aprendizado de máquina projetado para defesa contra ataques de injeção imediata, mas rapidamente descobriu-se que o modelo em si tinha sérias vulnerabilidades de segurança. Os ataques de injeção de dicas envolvem induzir grandes modelos de linguagem (LLMs) a violar restrições de segurança ou produzir comportamento inadequado por meio de entradas cuidadosamente elaboradas. O Prompt-Guard-86M tem como objetivo filtrar esses avisos prejudiciais, no entanto, os pesquisadores descobriram que o simples espaçamento entre caracteres e a remoção de pontuação podem facilmente contornar o mecanismo de defesa do modelo, tornando-o ineficaz.
Recentemente, a Meta lançou um modelo de aprendizado de máquina chamado Prompt-Guard-86M, projetado para detectar e responder a ataques de injeção imediata. Esse tipo de ataque geralmente envolve entradas especiais que fazem com que um modelo de linguagem grande (LLM) se comporte de maneira inadequada ou contorne restrições de segurança. Surpreendentemente, porém, o próprio novo sistema também se expõe ao risco de ser atacado.
Nota sobre a fonte da imagem: A imagem é gerada por IA e é autorizada pelo provedor de serviços Midjourney
O Prompt-Guard-86M foi lançado pela Meta junto com seu modelo de geração Llama3.1, principalmente para ajudar os desenvolvedores a filtrar prompts que possam causar problemas. Grandes modelos de linguagem normalmente processam grandes quantidades de texto e dados e, se não forem verificados, podem repetir arbitrariamente informações perigosas ou confidenciais. Portanto, os desenvolvedores construíram “proteções” no modelo para capturar entradas e saídas que poderiam causar danos.
No entanto, os usuários de IA parecem ver como um desafio contornar essas barreiras, usando injeção de dicas e jailbreak para fazer os modelos ignorarem suas próprias instruções de segurança. Recentemente, alguns pesquisadores apontaram que o Prompt-Guard-86M do Meta é vulnerável ao processar algumas entradas especiais. Por exemplo, ao digitar "Ignorar instruções anteriores" com um espaço entre as letras, o Prompt-Guard-86M ignorará obedientemente as instruções anteriores.
A descoberta foi feita por um caçador de vulnerabilidades chamado Aman Priyanshu, que descobriu a falha de segurança enquanto analisava modelos Meta e modelos de benchmark da Microsoft. Priyanshu disse que o processo de ajuste fino do Prompt-Guard-86M teve muito pouco impacto nas letras individuais do inglês, permitindo-lhe planejar este ataque. Ele compartilhou essa descoberta no GitHub, ressaltando que simplesmente espaçando os caracteres e removendo a pontuação, o classificador pode perder sua capacidade de detecção.
Hyrum Anderson, diretor de tecnologia da Robust Intelligence, também concordou. Ele destacou que a taxa de sucesso de ataque desse método é de quase 100%. Embora o Prompt-Guard seja apenas parte da linha de defesa, a exposição desta vulnerabilidade realmente soou o alarme para as empresas ao usarem IA. A Meta ainda não respondeu, mas fontes dizem que estão procurando ativamente por uma solução.
Destaques:
Descobriu-se que o Prompt-Guard-86M da Meta tem uma vulnerabilidade de segurança e é vulnerável a ataques de injeção imediata.
Ao adicionar espaços entre as letras, o sistema pode ignorar as instruções de segurança, com uma taxa de sucesso de ataque de quase 100%.
⚠️ Este incidente lembra às empresas que devem ser cautelosas ao usar a tecnologia de IA e que as questões de segurança ainda precisam ser levadas em consideração.
A vulnerabilidade do Prompt-Guard-86M expôs os enormes desafios enfrentados no campo da segurança da IA e mais uma vez enfatizou que a segurança deve ter prioridade no desenvolvimento e implantação de sistemas de IA. No futuro, mecanismos de segurança mais poderosos e fiáveis serão a chave para o desenvolvimento da tecnologia de IA.