Выявление уязвимостей джейлбрейка в приложениях LLM с помощью ARTKIT
Автоматизированное тестирование на основе подсказок для извлечения паролей из системы LLM Gandalf Challenge.
Ссылка на статью: https://towardsdatascience.com/expose-jailbreak-vulnerabilities-in-llm-applications-with-artkit-d2df5f56ece8
Фон
- По мере того как модели больших языков (LLM) становятся все более широко распространенными в различных отраслях и областях, возникли и усилились значительные риски безопасности. Некоторые из этих ключевых проблем включают нарушение конфиденциальности данных, возможность предвзятости и риск манипулирования информацией.
- Выявление этих угроз безопасности имеет решающее значение для обеспечения того, чтобы приложения LLM оставались полезными в реальных сценариях, сохраняя при этом их безопасность, эффективность и надежность.
- В этом проекте мы исследуем, как использовать платформу ARTKIT с открытым исходным кодом для автоматической оценки уязвимостей безопасности приложений LLM, используя в качестве иллюстративного примера популярный Gandalf Challenge.
Файлы
-
gandalf_challenge.ipynb
: Блокнот Jupyter, содержащий коды для прохождения.
Ссылки
- Официальный репозиторий ARTKIT на GitHub
- Сыграйте в вызов Гэндальфа
Благодарности
- Особая благодарность Шону Ангани, Энди Муну, Мэтью Вонгу, Рэнди Гриффин и Андреа Гао!