O mais recente "Classificador Body" da Anthropic trouxe novos avanços na proteção de segurança da IA. Essa tecnologia foi projetada para resistir efetivamente aos ataques de "jailbreak universal" e impedir que os modelos de IA gerassem conteúdo nocivo. Por meio de testes em larga escala, 183 participantes ainda não conseguiram ignorar completamente a proteção de segurança do sistema sob o incentivo de altos bônus e tempo suficiente, o que demonstrou totalmente as fortes capacidades de defesa do "classificador físico". Este artigo realizará uma discussão aprofundada sobre o princípio de trabalho, processo de melhoria e direção futura do desenvolvimento do "Classificador de Constituição Física".
A empresa de inteligência artificial Anthrópica anunciou recentemente o desenvolvimento de um novo método de segurança chamado "Classificador da Constituição do Corpo", com o objetivo de proteger modelos de linguagem contra manipulação maliciosa. A tecnologia é especificamente destinada a "jailbreak universal" - uma maneira de contribuições que tenta ignorar sistematicamente todas as medidas de segurança para impedir que os modelos de IA gerassem conteúdo nocivo.
Para verificar a eficácia dessa tecnologia, o Antrópico conduziu um teste em larga escala. A empresa recrutou 183 participantes para tentar romper seu sistema de defesa dentro de dois meses. Os participantes foram solicitados a tentar obter o modelo de IA Claude 3.5 para responder a dez perguntas proibidas, inserindo perguntas específicas. Apesar de oferecer um bônus de até US $ 15.000 e cerca de 3.000 horas de tempo de teste, nenhum participante conseguiu ignorar completamente as medidas de segurança do Antrópico.
Avançar dos desafios
A versão inicial do antropal de "Classificador da Constituição do Corpo" teve dois problemas principais: um era julgar incorretamente muitos pedidos inofensivos como solicitações perigosas, e o outro era exigir uma grande quantidade de recursos de computação. Após a melhoria, o novo classificador reduz significativamente a taxa de julgamento e otimiza a eficiência da computação. No entanto, os testes automáticos mostram que, embora o sistema aprimorado bloqueasse com sucesso mais de 95% das tentativas de jailbreak, são necessários 23,7% adicionais do poder de computação. Por outro lado, o modelo de Claude desprotegido permite que 86% das tentativas de jailbreak sejam aprovadas.
Treinamento com base em dados sintéticos
O núcleo do “classificador da Constituição” é usar regras predefinidas (chamadas “Constituição”) para distinguir entre permitido e proibido. O sistema treina o classificador para identificar entradas suspeitas, gerando exemplos de treinamento sintético em vários idiomas e estilos. Essa abordagem não apenas melhora a precisão do sistema, mas também aprimora sua capacidade de lidar com diversos ataques.
Apesar do progresso significativo, os pesquisadores antrópicos reconhecem que o sistema não é perfeito. Pode não ser capaz de lidar com todos os tipos de ataques universais de jailbreak, e novos métodos de ataque podem surgir no futuro. Portanto, a Anthrópica recomenda o uso do “classificador de constituição” em conjunto com outras medidas de segurança para fornecer proteção mais abrangente.
Testes públicos e perspectivas futuras
Para testar ainda mais a força do sistema, os planos antrópicos para lançar uma versão de demonstração pública entre 3 e 10 de fevereiro de 2025, convidando especialistas em segurança a tentar quebrá -lo. Os resultados dos testes serão anunciados nas atualizações subsequentes. Esse movimento não apenas demonstra o compromisso do Antrópico com a transparência tecnológica, mas também fornece dados valiosos para pesquisas no campo da segurança da IA.
O "classificador corporal" do Antrópico marca um progresso importante na proteção de segurança dos modelos de IA. Com o rápido desenvolvimento da tecnologia de IA, como impedir efetivamente o abuso de modelos se tornou o foco da atenção da indústria. As inovações da Anthropic fornecem novas soluções para esse desafio, além de apontar a direção para futuras pesquisas de segurança da IA.
O "classificador corporal" da Anthropic define uma nova referência para o campo da segurança da IA, e seus conceitos de testes públicos e melhorias contínuas valem a pena aprender. No futuro, com o desenvolvimento contínuo da tecnologia e a evolução das ameaças à segurança, a melhoria e a atualização dos "classificadores físicos" desempenharão um papel mais crítico na garantia da segurança da IA.