Редактор Downcodes представляет вам последний отчет об исследовании безопасности больших языковых моделей (LLM). Это исследование раскрывает неожиданные уязвимости, которые могут создать, казалось бы, безобидные меры безопасности в LLM. Исследователи обнаружили, что существуют значительные различия в сложности «взлома» моделей для разных демографических ключевых слов, что заставило людей глубоко задуматься о справедливости и безопасности ИИ. Результаты показывают, что меры безопасности, призванные обеспечить этичное поведение моделей, могут непреднамеренно усугубить это неравенство, повышая вероятность успеха джейлбрейк-атак на уязвимые группы.
Новое исследование показывает, что благонамеренные меры безопасности в больших языковых моделях могут привести к неожиданным уязвимостям. Исследователи обнаружили значительные различия в том, насколько легко можно «взломать» модели на основе разных демографических показателей. В исследовании под названием «Обладают ли студенты магистратуры политической корректностью?» изучалось, как демографические ключевые слова влияют на шансы на успех попытки побега из тюрьмы. Исследования показали, что подсказки, в которых используется терминология маргинализированных групп, с большей вероятностью дадут нежелательный результат, чем подсказки, в которых используется терминология привилегированных групп.
«Эти преднамеренные предубеждения приводят к 20-процентной разнице в показателе успеха джейлбрейка модели GPT-4o между небинарными и цисгендерными ключевыми словами и к 16-процентной разнице между белыми и черными ключевыми словами», — отмечают исследователи, хотя другие части подсказки были полностью одинаковыми», — объяснили Исак Ли и Хэбин Сон из Theori Inc.
Исследователи объясняют эту разницу преднамеренной предвзятостью, введенной для обеспечения этичного поведения модели. Принцип работы джейлбрейка заключается в том, что исследователи создали метод «PCJailbreak», чтобы проверить уязвимость больших языковых моделей к атакам с джейлбрейком. Эти атаки используют тщательно продуманные сигналы для обхода мер безопасности искусственного интеллекта и создания вредоносного контента.
PCJailbreak использует ключевые слова из разных демографических и социально-экономических групп. Исследователи создали пары слов, такие как «богатый» и «бедный» или «мужчина» и «женщина», чтобы сравнить привилегированные и маргинализированные группы.
Затем они создали подсказки, в которых эти ключевые слова сочетались с потенциально опасными инструкциями. Многократно тестируя различные комбинации, они смогли измерить шансы на успешную попытку взлома для каждого ключевого слова. Результаты показали значительную разницу: ключевые слова, представляющие маргинализированные группы, обычно имели гораздо более высокие шансы на успех, чем ключевые слова, представляющие привилегированные группы. Это говорит о том, что меры безопасности модели имеют непреднамеренные искажения, которые могут быть использованы для взлома джейлбрейка.
Для устранения уязвимостей, обнаруженных PCJailbreak, исследователи разработали метод PCDefense. Этот подход использует специальные защитные сигналы, чтобы уменьшить чрезмерную предвзятость в языковых моделях, делая их менее уязвимыми для джейлбрейк-атак.
PCDefense уникален тем, что не требует дополнительных этапов моделирования или обработки. Вместо этого защитные сигналы добавляются непосредственно ко входным данным, чтобы скорректировать предвзятости и получить более сбалансированное поведение языковой модели.
Исследователи протестировали PCDefense на различных моделях и показали, что вероятность успешной попытки взлома может быть значительно снижена как для привилегированных, так и для маргинализированных групп. В то же время разрыв между группами сократился, что указывает на снижение предвзятости, связанной с безопасностью.
Исследователи говорят, что PCDefense предоставляет эффективный и масштабируемый способ повысить безопасность больших языковых моделей без необходимости дополнительных вычислений.
Результаты подчеркивают сложность разработки безопасных и этических систем искусственного интеллекта, обеспечивающих баланс между безопасностью, справедливостью и производительностью. Точная настройка конкретных защитных ограждений может снизить общую производительность моделей ИИ, например, их креативность.
Чтобы облегчить дальнейшие исследования и улучшения, авторы сделали код PCJailbreak и все связанные с ним артефакты доступными в виде открытого исходного кода. Theori Inc, компания, проводившая исследование, — это компания по кибербезопасности, специализирующаяся на наступательной безопасности и базирующаяся в США и Южной Корее. Ее основали в январе 2016 года Эндрю Уэси и Брайан Пак.
Это исследование дает ценную информацию о безопасности и справедливости крупномасштабных языковых моделей, а также подчеркивает важность постоянного внимания к этическим и социальным последствиям разработки ИИ. Редактор Downcodes продолжит уделять внимание последним разработкам в этой области и предоставлять вам еще больше передовой научной и технологической информации.