Недавно исследователи из Стэнфордского университета и Университета Гонконга опубликовали статью, которая обнаружила крупную уязвимость безопасности в нынешних агентах ИИ, таких как Клод: они чрезвычайно уязвимы для всплывающих атак. Исследования показали, что простое всплывающее окно может значительно снизить скорость выполнения задачи агента ИИ и даже привести к полному выполнению задачи. Это вызвало обеспокоенность по поводу проблем безопасности в практических применениях агентов искусственного интеллекта, особенно когда им дают больше автономии.
Недавно исследователи из Стэнфордского университета и Университета Гонконга обнаружили, что нынешние агенты ИИ (такие как Клод) более восприимчивы к всплывающим окнам, чем люди, и даже их результаты значительно снизились при столкновении с простыми всплывающими окнами.
Согласно исследованию, когда агент AI сталкивается с разработанным всплывающим окном в экспериментальной среде, средний показатель успеха атаки достигает 86%и снижает уровень успеха задачи на 47%. Это открытие вызвало новые опасения по поводу безопасности агента искусственного интеллекта, особенно когда им дают больше возможностей для автономного выполнения задач.
В этом исследовании ученые разработали ряд состязательных всплывающих окон для проверки отзывчивости агента искусственного интеллекта. Исследования показывают, что, хотя люди могут идентифицировать и игнорировать эти всплывающие окна, агенты искусственного интеллекта часто испытывают искушение даже нажимать на эти злонамеренные всплывающие окна, заставляя их не выполнять свои исходные задачи. Это явление не только влияет на производительность агента искусственного интеллекта, но также может привести к опасности безопасности в реальных приложениях.
Исследовательская группа использовала две тестовые платформы, Osworld и VisualWebarena, вводила разработанные всплывающие окна и наблюдала поведение агента ИИ. Они обнаружили, что все модели ИИ, участвующие в тесте, были уязвимы. Чтобы оценить эффект атаки, исследователи записали частоту всплывающего окна Agent Click и его выполнение задач.
Исследование также исследует влияние дизайна всплывающего окна на успех атаки. Используя убедительные элементы и конкретные инструкции, исследователи обнаружили значительное увеличение показателей успеха атаки. Хотя они пытались противостоять атаке, побудив агента ИИ игнорировать всплывающие окна или добавить логотипы рекламы, результаты не были идеальными. Это показывает, что нынешний защитный механизм по -прежнему очень хрупкий для агента ИИ.
Выводы исследования подчеркивают необходимость более продвинутых защитных механизмов в области автоматизации для повышения устойчивости агентов искусственного интеллекта против вредоносных программ и обманчивых атак. Исследователи рекомендуют повысить безопасность агентов искусственного интеллекта посредством более подробных инструкций, улучшения способности идентификации вредоносного содержания и представления человеческого надзора.
бумага:
https://arxiv.org/abs/2411.02391
GitHub:
https://github.com/salt-nlp/popupattack
Ключевые моменты:
Уровень успеха атаки агента AI при столкновении с всплывающими окнами достигает 86%, что ниже, чем у людей.
Исследования показали, что текущие меры обороны практически неэффективны для агента искусственного интеллекта, и безопасность должна срочно улучшить.
В исследовании предлагается предложения обороны, такие как улучшение способности агентов выявлять злонамеренное содержание и наблюдение за человеком.
Результаты исследований создают серьезные проблемы для обеспечения безопасности агента искусственного интеллекта, а также указывают на направление будущих исследований безопасности искусственного интеллекта, то есть необходимо разработать более эффективные защитные механизмы для защиты агента ИИ от таких атак, как злонамеренные всплывающие окна и обеспечить что он работает безопасно и надежно. Последующие исследования должны сосредоточиться на том, как улучшить способность агента искусственного интеллекта идентифицировать вредоносный контент и как эффективно объединить ручной надзор.