Команда Microsoft по безопасности ИИ провела двухлетнее тестирование безопасности более чем 100 продуктов генеративного ИИ, чтобы выявить слабые места и этические риски. Результаты испытаний опровергли некоторые традиционные представления о безопасности ИИ и подчеркнули незаменимую роль человеческого опыта в области безопасности ИИ. Тесты показали, что наиболее эффективные атаки не всегда являются технически сложными, а скорее простыми методами «быстрого проектирования», такими как сокрытие вредоносных инструкций в тексте изображения для обхода механизмов безопасности. Это показывает, что безопасность ИИ должна учитывать как технические средства, так и гуманистические соображения.
С 2021 года команда Microsoft по безопасности ИИ протестировала более 100 продуктов генеративного ИИ в поисках слабых мест и этических проблем. Их выводы бросают вызов некоторым распространённым предположениям о безопасности ИИ и подчеркивают сохраняющуюся важность человеческого опыта.
Оказывается, самые эффективные атаки не всегда являются самыми изощренными. «Настоящие хакеры не вычисляют градиенты, а используют быстрое проектирование», — отмечается в исследовании, цитируемом в отчете Microsoft, в котором исследования безопасности ИИ сравниваются с реальной практикой. В одном из тестов команда успешно обошла функции безопасности генератора изображений, просто спрятав вредоносные инструкции в тексте изображения — никаких сложных математических вычислений не потребовалось.
Человеческий подход по-прежнему важен
Хотя Microsoft разработала PyRIT, инструмент с открытым исходным кодом, который может автоматизировать тестирование безопасности, команда подчеркивает, что человеческое суждение невозможно заменить. Это стало особенно очевидным, когда они проверили, как чат-бот справляется с деликатными ситуациями, например, разговаривая с кем-то, кто находится в эмоциональном стрессе. Оценка этих сценариев требует как психологических знаний, так и глубокого понимания потенциальных последствий для психического здоровья.
Команда также полагалась на человеческое понимание при расследовании предвзятости ИИ. В одном примере они исследовали гендерную предвзятость в генераторе изображений, создав изображения разных профессий (без указания пола).
Появляются новые проблемы безопасности
Интеграция искусственного интеллекта в повседневные приложения создает новые уязвимости. В одном из тестов команда успешно манипулировала языковой моделью, чтобы создать убедительные сценарии мошенничества. В сочетании с технологией преобразования текста в речь это создает систему, которая может взаимодействовать с людьми опасно реалистичными способами.
Риски не ограничиваются проблемами, специфичными для искусственного интеллекта. Команда обнаружила устаревшую уязвимость безопасности (SSRF) в инструменте обработки видео с искусственным интеллектом, продемонстрировав, что эти системы сталкиваются со старыми и новыми проблемами безопасности.
Постоянные потребности в безопасности
В исследовании основное внимание уделяется рискам «ответственного ИИ», то есть ситуациям, когда системы ИИ могут генерировать вредный или этически сомнительный контент. На эти вопросы особенно сложно ответить, поскольку они часто во многом зависят от контекста и личной интерпретации.
Команда Microsoft обнаружила, что непреднамеренное воздействие проблемного контента на обычных пользователей вызывает большее беспокойство, чем преднамеренные атаки, поскольку предполагает, что меры безопасности не работают должным образом при обычном использовании.
Результаты ясно показывают, что безопасность ИИ — это не единовременное решение. Microsoft рекомендует продолжить поиск и исправление уязвимостей, а затем провести дополнительное тестирование. По их мнению, это должно быть подкреплено нормативными актами и финансовыми стимулами, что сделает успешные атаки более дорогостоящими.
Исследовательская группа говорит, что еще предстоит ответить на несколько ключевых вопросов: как мы выявляем и контролируем потенциально опасные возможности ИИ, такие как убеждение и обман? Как мы можем адаптировать тестирование безопасности к различным языкам и культурам? поделиться этим стандартизированным способом? Их методы и результаты?
В целом, исследование Microsoft подчеркивает важность постоянного совершенствования мер безопасности ИИ. Для эффективного решения проблем безопасности ИИ и содействия ответственному развитию технологий ИИ требуется сочетание технических средств и гуманистического подхода.