Редактор Downcodes узнал, что исследователи из Стэнфордского университета и Университета Гонконга недавно опубликовали тревожный результат исследования: нынешние ИИ-агенты, такие как Клод, более восприимчивы к всплывающим атакам, чем люди. Исследования показывают, что простые всплывающие окна могут значительно снизить скорость выполнения задач агентами ИИ, что вызывает серьезные опасения по поводу безопасности и надежности агентов ИИ, особенно в контексте того, что им предоставляется больше возможностей для автономного выполнения задач.
Недавно исследователи из Стэнфордского университета и Университета Гонконга обнаружили, что нынешние ИИ-агенты (такие как Клод) более восприимчивы к вмешательству всплывающих окон, чем люди, и их производительность даже значительно падает, когда они сталкиваются с простыми всплывающими окнами.
Согласно исследованиям, когда ИИ-агент сталкивается с разработанными всплывающими окнами в экспериментальной среде, средний уровень успеха атаки достигает 86%, а уровень успеха задачи снижается на 47%. Это открытие вызывает новые опасения по поводу безопасности агентов ИИ, особенно потому, что им предоставлено больше возможностей выполнять задачи автономно.
В этом исследовании ученые разработали серию состязательных всплывающих окон, чтобы проверить скорость реагирования ИИ-агента. Исследования показывают, что, хотя люди могут распознавать и игнорировать эти всплывающие окна, агенты ИИ часто поддаются искушению и даже нажимают на эти вредоносные всплывающие окна, не позволяя им выполнить свои первоначальные задачи. Это явление не только влияет на производительность AI-агента, но также может привести к угрозе безопасности в реальных приложениях.
Исследовательская группа использовала две тестовые платформы, OSWorld и VisualWebArena, для внедрения разработанных всплывающих окон и наблюдения за поведением AI-агента. Они обнаружили, что все протестированные модели ИИ были уязвимы. Чтобы оценить эффективность атаки, исследователи зафиксировали частоту, с которой агент нажимал на всплывающие окна, и выполнение им задачи. Результаты показали, что в условиях атаки показатель успешности выполнения задач у большинства ИИ-агентов был менее 10. %.
В исследовании также изучалось влияние дизайна всплывающих окон на показатели успешности атак. Используя привлекательные элементы и конкретные инструкции, исследователи обнаружили значительное увеличение показателей успеха атак. Хотя они пытались противостоять атаке, предлагая AI-агенту игнорировать всплывающие окна или добавлять рекламные логотипы, результаты оказались не идеальными. Это показывает, что нынешний механизм защиты по-прежнему очень уязвим для агентов ИИ.
Выводы исследования подчеркивают необходимость в более совершенных защитных механизмах в области автоматизации для повышения устойчивости ИИ-агентов к вредоносным программам и ложным атакам. Исследователи рекомендуют повысить безопасность агентов ИИ за счет более подробных инструкций, улучшения способности выявлять вредоносный контент и введения человеческого контроля.
бумага:
https://arxiv.org/abs/2411.02391
Гитхаб:
https://github.com/SALT-NLP/PopupAttack
Результаты этого исследования имеют важное предупредительное значение для области безопасности ИИ, подчеркивая безотлагательность усиления безопасности агентов ИИ. В будущем дополнительные исследования должны быть сосредоточены на вопросах надежности и безопасности ИИ-агентов, чтобы гарантировать их надежность и безопасность в практических приложениях. Только таким образом можно лучше использовать потенциал ИИ и избежать потенциальных рисков.