El último "clasificador de cuerpo" de Anthrope ha traído nuevos avances a la protección de seguridad de IA. Esta tecnología está diseñada para resistir efectivamente los ataques de "jailbreak universal" y evitar que los modelos de IA generen contenido dañino. A través de pruebas a gran escala, 183 participantes aún no pudieron evitar completamente la protección de seguridad del sistema bajo el incentivo de altas bonificaciones y tiempo suficiente, lo que demostró completamente las fuertes capacidades de defensa del "clasificador físico". Este artículo llevará a cabo una discusión en profundidad sobre el principio de trabajo, el proceso de mejora y la dirección de desarrollo futuro del "clasificador de constitución física".
La compañía de inteligencia artificial Anthrope anunció recientemente el desarrollo de un nuevo método de seguridad llamado "Clasificador de constitución del cuerpo" destinado a proteger los modelos lingüísticos de la manipulación maliciosa. La tecnología está específicamente dirigida a "jailbreak universal", una forma de entrada que intenta evitar sistemáticamente todas las medidas de seguridad para evitar que los modelos de IA generen contenido dañino.
Para verificar la efectividad de esta tecnología, Anthrope realizó una prueba a gran escala. La compañía reclutó a 183 participantes para tratar de romper su sistema de defensa en dos meses. Se pidió a los participantes que intentaran que el modelo AI Claude 3.5 respondiera a diez preguntas prohibidas ingresando preguntas específicas. A pesar de ofrecer una bonificación de hasta $ 15,000 y aproximadamente 3,000 horas de tiempo de prueba, ningún participante pudieron evitar completamente las medidas de seguridad de Anthrope.
Avanzar desde los desafíos
La versión temprana de Anthrope del "clasificador de constitución del cuerpo" tenía dos problemas principales: uno era juzgar mal demasiadas solicitudes inofensivas como solicitudes peligrosas, y la otra debía requerir una gran cantidad de recursos informáticos. Después de mejorar, el nuevo clasificador reduce significativamente la tasa de juicio erróneo y optimiza la eficiencia informática. Sin embargo, las pruebas automáticas muestran que si bien el sistema mejorado bloqueó con éxito más del 95% de los intentos de jailbreak, se requiere un 23.7% adicional de la potencia informática. En contraste, el modelo Claude desprotegido permite pasar el 86% de los intentos de jailbreak.
Capacitación basada en datos sintéticos
El núcleo del "clasificador de constitución" es utilizar reglas predefinidas (llamada "constitución") para distinguir entre permitido y prohibido. El sistema entrena el clasificador para identificar entradas sospechosas generando ejemplos de capacitación sintética en múltiples idiomas y estilos. Este enfoque no solo mejora la precisión del sistema, sino que también mejora su capacidad para lidiar con diversos ataques.
A pesar del progreso significativo, los investigadores antrópicos reconocen que el sistema no es perfecto. Es posible que no pueda hacer frente a todos los tipos de ataques universales de jailbreak, y pueden surgir nuevos métodos de ataque en el futuro. Por lo tanto, Anthrope recomienda usar el "clasificador de constitución" junto con otras medidas de seguridad para proporcionar una protección más integral.
Pruebas públicas y perspectivas futuras
Para probar aún más la fortaleza del sistema, Anthrope planea lanzar una versión de demostración pública entre el 3 y el 10 de febrero de 2025, invitando a los expertos en seguridad a tratar de descifrarla. Los resultados de la prueba se anunciarán en actualizaciones posteriores. Este movimiento no solo demuestra el compromiso de Anthrope con la transparencia tecnológica, sino que también proporciona datos valiosos para la investigación en el campo de la seguridad de la IA.
El "clasificador corporal" de Anthrope marca un progreso importante en la protección de seguridad de los modelos de IA. Con el rápido desarrollo de la tecnología de IA, cómo prevenir efectivamente el abuso de los modelos se ha convertido en el foco de la atención de la industria. Las innovaciones de Anthrope proporcionan nuevas soluciones a este desafío, al tiempo que señalan la dirección para futuras investigaciones de seguridad de IA.
El "clasificador de cuerpo" de Anthrope establece un nuevo punto de referencia para el campo de la seguridad de la IA, y vale la pena aprender sus conceptos de pruebas públicas y mejora continua. En el futuro, con el desarrollo continuo de la tecnología y la evolución de las amenazas de seguridad, la mejora y la mejora de los "clasificadores físicos" desempeñarán un papel más crítico para garantizar la seguridad de la IA.