В этой статье обсуждаются результаты тестов модели AI AI AIPIC CLAUDE 3.5 System Security. Исследователи проверили эффективность своего нового механизма безопасности, классификатора телосложения, с помощью шестидневной открытой задачи. Участники пытались обойти все меры по защите безопасности Claude 3.5 и, наконец, успешно пробили все восемь уровней безопасности, вызвав углубленные дискуссии по защите безопасности искусственного интеллекта. Хотя Челленджер успешно совершил прорыв, не было обнаружено никакого общего «метода джейлбрейка», что показывает, что в защите безопасности искусственного интеллекта все еще есть проблемы, но он не совсем нерушимый.
Всего за шесть дней участники успешно обошли все меры по защите безопасности в модели антропного искусственного интеллекта (ИИ) Claude 3.5, прорыв, который приводит новые дискуссии в области защиты безопасности ИИ. Ян Лейк, бывший член команды Openai Alignment и теперь работает на Anpropic, объявил на платформе X, что участник успешно сломал все восемь уровней безопасности. Это коллективное усилие включало в себя приблизительно 3700 часов тестов и 300 000 сообщений от участников.
Несмотря на успешный прорыв претендента, Леййк подчеркнул, что никто не смог предложить общий «метод джейлбрейка» для решения всех проблем безопасности одновременно. Это означает, что, несмотря на прорыв, до сих пор нет способа найти универсальный способ обойти всю защиту безопасности.
Проблемы и улучшения физических классификаторов
Поскольку технологии ИИ становятся все более мощными, как защитить их от манипуляций и злоупотреблений, особенно когда речь идет о вредном производстве, становится все более важной проблемой. Anpropic разработал новый метод безопасности - классификатор конституции, в частности, для предотвращения возникновения общих джейлбрейков. Этот метод использует предустановленные правила, чтобы определить, возможно ли входное содержание манипулировать моделью, тем самым предотвращая опасные ответы.
Чтобы проверить эффективность этой системы, антроп набрал 183 участника в течение двухмесячного периода, чтобы попытаться прорваться через защиту модели Claude 3.5. Участников попросили попытаться обойти механизм безопасности, заставляя Клода ответить на десять «табу». Несмотря на то, что он предлагал бонус в размере 15 000 долларов и почти 3000 часов испытаний, никто не смог обойти всю защиту безопасности.
В более ранних версиях классификатора Конституции были некоторые проблемы, включая ошибку, отмечающую безвредных запросов в качестве опасных запросов и необходимость в большом количестве вычислительной мощности. Но с последующими улучшениями эти проблемы были эффективно решены. Данные тестирования показывают, что 86% попыток манипуляции были переданы в незащищенной модели Claude, в то время как защищенная версия предотвратила более 95% попыток манипуляции, хотя система по -прежнему требует высокой вычислительной мощности.
Синтезированные данные обучения и будущие проблемы безопасности
Система безопасности основана на синтетических данных обучения, используя предопределенные правила для создания «конституции» модели, которая определяет, какие входы разрешены, а какие запрещены. Классификатор, обученный этими синтетическими примерами, может эффективно идентифицировать подозрительные входы. Тем не менее, исследователи признают, что эта система не идеальна и не может справиться со всеми формами универсальных атак из джейлбрейка, поэтому рекомендуется использовать ее в сочетании с другими мерами безопасности.
Чтобы дополнительно укрепить проверку системы, Anpropic выпустила публичную демонстрационную версию в период с 3 по 10 февраля 2025 года, приглашая экспертов по безопасности участвовать в вызове, и результаты будут переданы вам посредством последующих обновлений.
Этот конкурс на безопасность ИИ демонстрирует огромные проблемы и сложность защиты модели ИИ. Благодаря постоянному развитию технологий, как улучшить функциональность модели, обеспечивая, чтобы безопасность по -прежнему остается важной проблемой, которую необходимо срочно решать индустрии ИИ.
Короче говоря, результаты этой проблемы безопасности не только показывают недостатки защиты от ИИ, но и показывают усилия Антропика и прогресс в улучшении безопасности ИИ. В будущем безопасность искусственного интеллекта все еще должна быть постоянно улучшаться и улучшать, чтобы удовлетворить постоянно развивающиеся проблемы.