La protección de seguridad antrópica enfrenta desafíos, las pruebas generales de jailbreak de modelos de IA revelan avances - artículos de IA

Autor：Eve Cole Fecha de actualización：2025-02-14 08:48:01

Este artículo analiza los resultados de la prueba del Sistema de Protección de Seguridad Claude 3.5 de Anthrope Model Claude 3.5. Los investigadores probaron la efectividad de su nuevo mecanismo de seguridad, el clasificador físico, a través de un desafío abierto de seis días. Los participantes intentaron evitar todas las medidas de protección de seguridad de Claude 3.5 y finalmente rompieron con éxito los ocho niveles de seguridad, lo que provocó discusiones en profundidad sobre la protección de seguridad de la IA. Aunque el Challenger hizo un gran avance, no se descubrió ningún "método de jailbreak" común, lo que muestra que todavía hay desafíos en la protección de seguridad de IA, pero no es completamente inquebrantable.

En solo seis días, los participantes pasaron por alto con éxito todas las medidas de protección de seguridad en el modelo de inteligencia artificial antrópica (AI) Claude 3.5, un avance que aporta nuevas discusiones al campo de la protección de seguridad de la IA. Jan Leike, un ex miembro del equipo de alineación de Operai y que ahora trabajó para Anthrope, anunció en la plataforma X que un participante rompió con éxito los ocho niveles de seguridad. Este esfuerzo colectivo involucró aproximadamente 3,700 horas de pruebas y 300,000 mensajes de los participantes.

A pesar del éxito exitoso del retador, Leike enfatizó que nadie ha podido proponer un "método de jailbreak" común para resolver todos los desafíos de seguridad a la vez. Esto significa que a pesar del avance, todavía no hay forma de encontrar una forma universal de evitar todas las protecciones de seguridad.

Claude2，Anthropic，人工智能，聊天机器人克劳德

Desafíos y mejoras de los clasificadores físicos

A medida que las tecnologías de IA se vuelven cada vez más poderosas, cómo protegerlas de la manipulación y el abuso, especialmente cuando se trata de una producción nociva, se ha convertido en un tema cada vez más importante. Anthrope ha desarrollado un nuevo método de seguridad: un clasificador de constitución, específicamente para evitar la ocurrencia de jailbreaks generales. Este método utiliza reglas preestablecidas para determinar si el contenido de entrada es posible para manipular el modelo, evitando así las respuestas peligrosas.

Para probar la efectividad de este sistema, Anthrope reclutó a 183 participantes durante un período de dos meses para tratar de romper la protección de seguridad del modelo Claude 3.5. Se pidió a los participantes que intentaran evitar el mecanismo de seguridad, haciendo que Claude respondiera diez "preguntas tabú". A pesar de ofrecer un bono de $ 15,000 y casi 3,000 horas de pruebas, nadie ha podido evitar todas las protecciones de seguridad.

Las versiones anteriores del clasificador de la Constitución tuvieron algunos problemas, incluida la marca de error de las solicitudes inofensivas como solicitudes peligrosas y la necesidad de una gran cantidad de potencia informática. Pero con mejoras posteriores, estos problemas se han resuelto efectivamente. Los datos de prueba muestran que el 86% de los intentos de manipulación se pasaron en el modelo Claude sin protección, mientras que la versión protegida evitó más del 95% de los intentos de manipulación, aunque el sistema aún requiere una alta potencia informática.

Datos de capacitación sintetizados y desafíos de seguridad futuros

El sistema de seguridad se basa en datos de capacitación sintética, utilizando reglas predefinidas para construir la "constitución" de un modelo que determina qué entradas están permitidas y cuáles están prohibidas. El clasificador entrenado a través de estos ejemplos sintéticos puede identificar efectivamente las entradas sospechosas. Sin embargo, los investigadores reconocen que este sistema no es perfecto y no puede hacer frente a todas las formas de ataques universales de jailbreak, por lo que se recomienda usarlo en combinación con otras medidas de seguridad.

Para fortalecer aún más la verificación del sistema, Anthrope lanzó una versión de demostración pública entre el 3 y el 10 de febrero de 2025, invitando a los expertos en seguridad a participar en el desafío, y los resultados se compartirán con usted a través de actualizaciones posteriores.

Este concurso sobre la seguridad de la IA demuestra los enormes desafíos y la complejidad de la protección del modelo de IA. Con el avance continuo de la tecnología, cómo mejorar la funcionalidad del modelo al tiempo que garantizar la seguridad sigue siendo un problema importante que la industria de la inteligencia artificial necesita resolver con urgencia.

En resumen, los resultados de este desafío de seguridad no solo revelan las deficiencias de la protección de seguridad de la IA, sino que también muestran los esfuerzos y el progreso de Anthrope en la mejora de la seguridad de la IA. En el futuro, la seguridad de IA aún necesita mejorarse continuamente y mejorar para enfrentar los desafíos en constante evolución.