Meta недавно выпустила Prompt-Guard-86M, модель машинного обучения, предназначенную для защиты от атак с быстрым внедрением, но сама модель была быстро обнаружена с серьезными уязвимостями безопасности. Атаки с внедрением подсказок включают в себя побуждение больших языковых моделей (LLM) к нарушению ограничений безопасности или к неподобающему поведению посредством тщательно продуманных входных данных. Prompt-Guard-86M предназначен для фильтрации этих вредоносных подсказок, однако исследователи обнаружили, что простое удаление межсимвольных интервалов и знаков препинания может легко обойти защитный механизм модели, сделав его неэффективным.
Недавно Meta запустила модель машинного обучения под названием Prompt-Guard-86M, предназначенную для обнаружения и реагирования на атаки с быстрым внедрением. Этот тип атаки обычно включает в себя специальные входные данные, которые заставляют большую языковую модель (LLM) вести себя ненадлежащим образом или обходить ограничения безопасности. Однако, как ни удивительно, сама новая система также подвергается риску нападения.
Примечание к источнику изображения: изображение генерируется искусственным интеллектом и разрешено поставщиком услуг Midjourney.
Prompt-Guard-86M был запущен компанией Meta вместе с моделью поколения Llama3.1, главным образом, чтобы помочь разработчикам отфильтровывать подсказки, которые могут вызвать проблемы. Большие языковые модели обычно обрабатывают большие объемы текста и данных, и если их не контролировать, они могут произвольно повторять опасную или конфиденциальную информацию. Поэтому разработчики встроили в модель «ограждения» для фиксации входных и выходных данных, которые могут нанести вред.
Однако пользователи ИИ, похоже, рассматривают обход этих ограждений как проблему, используя внедрение подсказок и взлом тюрьмы, чтобы заставить модели игнорировать свои собственные инструкции по безопасности. Недавно некоторые исследователи отметили, что Prompt-Guard-86M компании Meta уязвим при обработке некоторых специальных входных данных. Например, при вводе «Игнорировать предыдущие инструкции» с пробелом между буквами Prompt-Guard-86M послушно проигнорирует предыдущие инструкции.
Открытие было сделано охотником за уязвимостями по имени Аман Прияншу, который обнаружил брешь в безопасности при анализе мета-моделей и эталонных моделей Microsoft. Прияншу сказал, что процесс тонкой настройки Prompt-Guard-86M очень мало повлиял на отдельные английские буквы, что позволило ему разработать эту атаку. Он поделился этим открытием на GitHub, отметив, что, просто расставив символы и удалив знаки препинания, классификатор может потерять свои возможности обнаружения.
Хайрам Андерсон, технический директор компании Robust Intelligence, также согласился. Он отметил, что вероятность успеха атаки этого метода составляет почти 100%. Хотя Prompt-Guard является лишь частью линии защиты, обнаружение этой уязвимости действительно стало сигналом тревоги для компаний, использующих ИИ. Meta пока не ответила, но источники сообщают, что они активно ищут решение.
Основные моменты:
Было обнаружено, что Prompt-Guard-86M компании Meta имеет уязвимость безопасности и уязвим для атак с быстрым внедрением.
Добавляя пробелы между буквами, можно заставить систему игнорировать инструкции безопасности, при этом вероятность успеха атаки составляет почти 100%.
⚠️ Этот инцидент напоминает компаниям о необходимости быть осторожными при использовании технологий искусственного интеллекта и о том, что вопросы безопасности по-прежнему необходимо принимать во внимание.
Уязвимость Prompt-Guard-86M обнажила огромные проблемы, стоящие перед областью безопасности ИИ, и еще раз подчеркнула, что безопасности необходимо уделять приоритетное внимание при разработке и развертывании систем ИИ. В будущем более мощные и надежные механизмы безопасности станут ключом к развитию технологий искусственного интеллекта.