Последний «Классификатор тела» Антропика привел к новым прорывам в защиту безопасности искусственного интеллекта. Эта технология предназначена для эффективной противостояния атак «универсального джейлбрейка» и предотвращения создания вредного содержания ИИ. Благодаря крупномасштабному тестированию 183 участника все еще не могли полностью обойти защиту системы под стимулом высоких бонусов и достаточного времени, что полностью продемонстрировало сильные возможности защиты «физического классификатора». В этой статье будет проведено углубленное обсуждение принципа работы, процесса улучшения и будущего направления развития «классификатора физической конституции».
Компания искусственного интеллекта Anpropic недавно объявила о разработке нового метода безопасности, который называется «классификатор конституции тела», направленный на защиту языковых моделей от злонамеренных манипуляций. Технология специально предназначена для «универсального джейлбрейка» - способа ввода, который пытается систематически обходить все меры безопасности, чтобы предотвратить создание вредного контента.
Чтобы проверить эффективность этой технологии, Антропик провел крупномасштабный тест. Компания наняла 183 участника, чтобы попытаться прорваться через свою систему обороны в течение двух месяцев. Участники попросили попытаться получить модель ИИ Claude 3.5, чтобы ответить на десять запрещенных вопросов, введя конкретные вопросы. Несмотря на то, что он предлагает до 15 000 долларов и около 3000 часов с времени тестирования, ни один участники не смогли полностью обойти меры безопасности Антрика.
Продвигаться от проблем
В ранней версии «Классификатора конституции тела» было две основные проблемы: одна была ошибочно оценить слишком много безвредных запросов в качестве опасных запросов, а другая должна была потребовать большого количества вычислительных ресурсов. После улучшения новый классификатор значительно снижает скорость неправильного суждения и оптимизирует эффективность вычислений. Тем не менее, автоматическое тестирование показывает, что, хотя улучшенная система успешно заблокировала более 95% попыток джейлбрейка, для работы требуются дополнительные 23,7% вычислительной мощности. Напротив, незащищенная модель Claude позволяет пройти 86% попыток джейлбрейка.
Обучение на основе синтетических данных
Ядро «классификатора конституции» состоит в том, чтобы использовать предопределенные правила (называемые «конституцией»), чтобы различать допустимые и запрещенные. Система обучает классификатору идентифицировать подозрительные входы, генерируя примеры синтетического обучения на нескольких языках и стилях. Этот подход не только повышает точность системы, но и повышает ее способность справляться с различными атаками.
Несмотря на значительный прогресс, антропные исследователи признают, что система не идеальна. Возможно, он не сможет справиться со всеми типами универсальных атак из джейлбрейка, и в будущем могут появиться новые методы атаки. Поэтому Anpropic рекомендует использовать «классификатор конституции» в сочетании с другими мерами безопасности для обеспечения более комплексной защиты.
Публичные тестирование и перспективы будущих
Чтобы дополнительно проверить силу системы, антропной планирует выпустить публичную демонстрационную версию в период с 3 по 10 февраля 2025 года, приглашая экспертов по безопасности попытаться взломать ее. Результаты испытаний будут объявлены в последующих обновлениях. Этот шаг не только демонстрирует приверженность Антрии технологической прозрачности, но также предоставляет ценные данные для исследований в области безопасности искусственного интеллекта.
«Классификатор тела» Антропика знаменует собой важный прогресс в защите безопасности моделей искусственного интеллекта. Благодаря быстрому развитию технологии ИИ, как эффективно предотвратить злоупотребление моделями, стало центром внимания отрасли. Инновации Anpropic обеспечивают новые решения для этой проблемы, а также указывают на направление для будущих исследований безопасности искусственного интеллекта.
«Классификатор тела» Антрии устанавливает новый эталон для области безопасности ИИ, и его концепции публичного тестирования и постоянного улучшения стоит учиться. В будущем, с постоянным развитием технологий и эволюцией угроз безопасности, улучшение и модернизация «физических классификаторов» будут играть более важную роль в обеспечении безопасности ИИ.