A proteção antrópica da segurança enfrenta desafios, o teste geral de modelos de IA revela avanços - artigos de IA

Autor：Eve Cole Data da Última Atualização：2025-02-14 08:48:01

Este artigo discute os resultados do teste do Modelo AI do Antrópico Claude 3.5 Sistema de Proteção à Segurança. Os pesquisadores testaram a eficácia de seu novo mecanismo de segurança, o classificador físico, através de um desafio aberto de seis dias. Os participantes tentaram ignorar todas as medidas de proteção de segurança do Claude 3.5 e, finalmente, romper com sucesso todos os oito níveis de segurança, desencadeando discussões detalhadas sobre a proteção de segurança da IA. Embora o desafiante tenha feito com sucesso um avanço, nenhum "método de jailbreak" comum foi descoberto, o que mostra que ainda existem desafios na proteção de segurança da IA, mas não é completamente inquebrável.

Em apenas seis dias, os participantes ignoraram com sucesso todas as medidas de proteção de segurança na inteligência artificial antrópica (AI) Claude 3.5, um avanço que traz novas discussões ao campo da proteção de segurança da IA. Jan Like, ex -membro da equipe de alinhamento do Openai e agora trabalha para a Anthrópica, anunciou na plataforma X que um participante quebrou com sucesso todos os oito níveis de segurança. Esse esforço coletivo envolveu aproximadamente 3.700 horas de testes e 300.000 mensagens dos participantes.

Apesar do bem -sucedido avanço do Challenger, Like enfatizou que ninguém conseguiu propor um "método de jailbreak" comum para resolver todos os desafios de segurança de uma só vez. Isso significa que, apesar do avanço, ainda não há como encontrar uma maneira universal de ignorar todas as proteções de segurança.

Claude2，Anthropic，人工智能，聊天机器人克劳德

Desafios e melhorias de classificadores físicos

À medida que as tecnologias de IA se tornam cada vez mais poderosas, como protegê -las da manipulação e abuso, especialmente quando se trata de produção prejudicial, tornou -se uma questão cada vez mais importante. A Anthropic desenvolveu um novo método de segurança - um classificador de constituição, especificamente para impedir a ocorrência de jailbreaks gerais. Este método usa regras predefinidas para determinar se o conteúdo de entrada é possível manipular o modelo, impedindo assim respostas perigosas.

Para testar a eficácia desse sistema, os antropia recrutaram 183 participantes durante um período de dois meses para tentar romper a proteção de segurança do modelo Claude 3.5. Os participantes foram convidados a tentar ignorar o mecanismo de segurança, fazendo com que Claude respondesse a dez "perguntas tabus". Apesar de oferecer um bônus de US $ 15.000 e quase 3.000 horas de teste, ninguém conseguiu ignorar todas as proteções de segurança.

As versões anteriores do classificador da Constituição tiveram alguns problemas, incluindo a marcação de erros de solicitações inofensivas como solicitações perigosas e a necessidade de muito poder de computação. Mas com melhorias subsequentes, esses problemas foram efetivamente resolvidos. Os dados de teste mostram que 86% das tentativas de manipulação foram aprovadas no modelo de Claude desprotegido, enquanto a versão protegida impedia mais de 95% das tentativas de manipulação, embora o sistema ainda exija alta potência de computação.

Dados de treinamento sintetizados e desafios de segurança futuros

O sistema de segurança é baseado em dados de treinamento sintético, usando regras predefinidas para criar a "constituição" de um modelo que determina quais entradas são permitidas e quais são proibidas. O classificador treinado através desses exemplos sintéticos pode efetivamente identificar entradas suspeitas. No entanto, os pesquisadores reconhecem que esse sistema não é perfeito e não pode lidar com todas as formas de ataques universais de jailbreak, por isso é recomendável usá -lo em combinação com outras medidas de segurança.

Para fortalecer ainda mais a verificação do sistema, a Anthrópica divulgou uma versão de demonstração pública entre 3 e 10 de fevereiro de 2025, convidando especialistas em segurança a participar do desafio, e os resultados serão compartilhados com você por meio de atualizações subsequentes.

Este concurso sobre segurança da IA demonstra os enormes desafios e complexidade da proteção do modelo de IA. Com o avanço contínuo da tecnologia, como melhorar a funcionalidade do modelo, garantindo que a segurança ainda seja uma questão importante que a indústria de IA precisa resolver com urgência.

Em resumo, os resultados desse desafio de segurança não apenas revelam as deficiências da proteção de segurança da IA, mas também mostram os esforços e progredos da Antrópica na melhoria da segurança da IA. No futuro, a segurança da IA ainda precisa ser continuamente melhorada e melhorada para enfrentar os desafios em constante evolução.