LLM SECURITY
1.0.0
Ссылки на статьи, инструменты, документы, книги и т. д., содержащие полезные образовательные материалы, относящиеся к проекту LLM Security.
Публикация | Автор | Дата | Название и ссылка |
---|---|---|---|
WithSecure Labs | Бенджамин Халл, Донато Капителла | 08 апреля 24 | Обнаружение быстрого внедрения в конкретной области с помощью классификатора BERT |
WithSecure Labs | Донато Капителла | 21 февраля 24 года | Стоит ли разрешить ChatGPT управлять вашим браузером? / Видео на YouTube |
Подскажите объяснение инъекции с видео примерами | Арнав Батла | 12 декабря 23 года | Подскажите объяснение инъекции с видео примерами |
WithSecure Labs | Донато Капителла | 04 декабря 23 | Практический пример быстрого внедрения для агентов ReAct LLM / Видео на YouTube |
Кибербезопасность против ИИ вики | Адитья Рана | 04 декабря 23 | Кибербезопасность AI вики |
Команда iFood Cybersec | Эмануэль Валенте | 04-сен-23 | Оперативное внедрение: исследование, предотвращение и выявление уязвимостей Langchain |
Сэнди Данн | 15 октября 23 года | Интеллектуальная карта угроз ИИ | |
Середина | Кен Хуанг | 11 июня 23 | Шаблоны архитектуры приложений на базе LLM и средства контроля безопасности |
Середина | Авинаш Синха | 02-Фев-23 | AI-ChatGPT — Способность принимать решения — слишком дружелюбный разговор с ChatGPT |
Середина | Авинаш Синха | 06 февраля 23 | AI-ChatGPT-Способность принимать решения – Взлом психологии ChatGPT – ChatGPT против Siri |
Проводной | Мэтт Берджесс | 13 апреля 23 | Взлом ChatGPT только начинается |
Математическая компания | Арджун Менон | 23 января 23 | Отравление данных и его влияние на экосистему искусственного интеллекта |
IEEE-спектр | Паял Дхар | 24 марта 23 | Защита моделей ИИ от «отравления данными» |
АМБ Крипто | Сузуки Шиллсалот | 30 апреля 23 года | Вот как каждый может сделать джейлбрейк ChatGPT с помощью этих 4 лучших методов |
Техопедия | Каушик Пал | 22 апреля 23 года | Что такое джейлбрейк в моделях искусственного интеллекта, таких как ChatGPT? |
Регистр | Томас Клэберн | 26 апреля 23 года | Как атаки с быстрым внедрением захватывают современный ИИ высшего уровня – и это сложно исправить |
Итемис | Рафаэль Таппе Маэстро | 14 февраля 23 | Расцвет больших языковых моделей ~ Часть 2: Модельные атаки, эксплойты и уязвимости |
Скрытый слой | Эоин Викенс, Марта Янус | 23 марта 23 | Темная сторона больших языковых моделей: Часть 1 |
Скрытый слой | Эоин Викенс, Марта Янус | 24 марта 23 года | Темная сторона больших языковых моделей: часть 2 |
Примите красный цвет | Иоганн Ребергер (вундервуцци) | 29 марта 23 | Инъекции ИИ: прямые и косвенные быстрые инъекции и их последствия |
Примите красный цвет | Иоганн Ребергер (вундервуцци) | 15 апреля 23 | Не доверяйте слепо ответам LLM. Угрозы для чат-ботов |
МуфидДВХ | Муфид | 9 декабря 22 | Безопасность в эпоху LLM |
danielmiessler.com | Дэниел Мисслер | 15 мая 23 | Карта поверхности атаки ИИ v1.0 |
Темное чтение | Гэри МакГроу | 20 апреля 23 года | Мнение эксперта: опасности использования больших языковых моделей до их создания |
Honeycomb.io | Филипп Картер | 25-мая-23 | Все сложные вещи, о которых никто не говорит при создании продуктов с помощью LLM |
Проводной | Мэтт Берджесс | 25-мая-23 | Дыра в безопасности в основе ChatGPT и Bing |
Обзор BizPac | Терреза Монро-Гамильтон | 30 мая 23 | «Я не знал»: прокурору из Нью-Йорка грозят санкции за использование ChatGPT для написания брифа, наполненного «фиктивными» цитатами |
Вашингтон Пост | Праншу Верма | 18 мая 23 | Профессор обвинил свой класс в использовании ChatGPT, ставя под угрозу дипломы |
Кудельски Исследования Безопасности | Натан Хамиэль | 25-мая-23 | Снижение воздействия атак с быстрым внедрением с помощью дизайна |
Деревня ИИ | GTКлондайк | 7-23 июня | Приложения LLM для моделирования угроз |
Примите красный цвет | Иоганн Ребергер | 28 марта 23 | Объяснение эксплойта плагина ChatGPT |
Разработчик NVIDIA | Уилл Пирс, Джозеф Лукас | 14 июня 23 | NVIDIA AI Red Team: Введение |
Канарейки | Наоми Кларксон | 7 апреля 23 | Google Бард Джейлбрейк |
Учреждение | Дата | Название и ссылка |
---|---|---|
НИСТ | 8 марта 2023 г. | Технический документ NIST AI 100-2e2023 (проект) |
Офис комиссара по информации Великобритании (ICO) | 3 апреля 2023 г. | Генеративный ИИ: восемь вопросов, которые должны задать разработчики и пользователи |
Национальный центр кибербезопасности Великобритании (NCSC) | 2 июня 2023 г. | ChatGPT и большие языковые модели: в чем риск? |
Национальный центр кибербезопасности Великобритании (NCSC) | 31 августа 2022 г. | Принципы безопасности машинного обучения |
Европейский парламент | 31 августа 2022 г. | Закон ЕС об искусственном интеллекте: первое постановление об искусственном интеллекте |
Публикация | Автор | Дата | Название и ссылка |
---|---|---|---|
Арксив | Сэмюэл Геман и др. | 24-сен-20 | ПОДСКАЗКИ РЕАЛЬНОЙ ТОКСИЧНОСТИ: оценка нейротоксической дегенерации в языковых моделях |
Арксив | Фабио Перес, Ян Рибейро | 17 ноября 22 | Игнорировать предыдущую подсказку: методы атаки на языковые модели |
Арксив | Николас Карлини и др. | 14 декабря 20 года | Извлечение обучающих данных из больших языковых моделей |
Группа НКЦ | Крис Энли | 06 июля 22 | Практические атаки на системы машинного обучения |
Группа НКЦ | Хосе Сельви | 5 декабря 22 | Изучение атак с быстрым внедрением |
Арксив | Варшини Субхаш | 22 февраля 2023 г. | Могут ли большие языковые модели враждебно изменить предпочтения пользователей? |
? | Цзин Ян и др. | 23 мая 2023 г. | Систематический обзор литературы по информационной безопасности в чат-ботах |
Арксив | Исаак и др. | 18 апреля 2023 г. | Безопасность продуктов искусственного интеллекта: учебник для разработчиков |
ОпенАИ | ОпенАИ | 15 марта 23 | Технический отчет GPT-4 |
Арксив | Кай Грешейк и др. | 05 мая 23 | Не то, на что вы подписались: компрометация реальных приложений, интегрированных с LLM, с помощью непрямого быстрого внедрения |
Арксив | Александр Ван и др. | 01 мая 23 | Отравление языковых моделей во время настройки инструкций |
Арксив | Леон Дерчински и др. | 31 марта 23 | Оценка развертывания языковой модели с помощью карточек рисков |
Арксив | Ян фон дер Ассен и др. | 11 марта 24 | Моделирование угроз на основе активов для систем на базе искусственного интеллекта |
Публикация | Автор | Дата | Название и ссылка |
---|---|---|---|
Делойт | Институт искусственного интеллекта «Делойт» | 13 марта 23 | Новый рубеж в области искусственного интеллекта: последствия генеративного ИИ для бизнеса |
Команда8 | Team8 CISO Village | 18 апреля 23 | Генеративный ИИ и корпоративные риски ChatGPT |
След битов | Хейди Клааф | 7 марта 23 | На пути к комплексной оценке рисков и обеспечению безопасности систем на основе искусственного интеллекта |
Влияние ChatGPT на безопасность | Альянс облачной безопасности (CSA) | 23 апреля 2023 г. | Влияние ChatGPT на безопасность |
Услуга | Канал | Дата | Название и ссылка |
---|---|---|---|
Ютуб | LLM Хроники | 29 марта 24 | Быстрое внедрение в агенты браузера LLM |
Ютуб | Наложение слоев | 03.03.24 | Объяснение червей GenAI: новая киберугроза для студентов LLM |
Ютуб | РАЛЬФКАЙРОС | 05 февраля 23 | ChatGPT для атак и защиты — риски искусственного интеллекта: конфиденциальность, IP, фишинг, программы-вымогатели — Авинаш Синха |
Ютуб | Объяснение ИИ | 25 марта 23 | «Управляющий сверхинтеллект» — синтетические патогены, бумага «Древо мыслей» и самосознание |
Ютуб | LiveOverflow | 14 апреля 23 | «Атака LLM – быстрое введение» |
Ютуб | LiveOverflow | 27 апреля 23 года | «Случайный бэкдор LLM — подсказки» |
Ютуб | LiveOverflow | 11 мая 23 | «Защита LLM – быстрое введение» |
Ютуб | Подкаст по облачной безопасности | 30 мая 23 | «МОЖНО ЛИ НАПАДАТЬ НА LLM!» |
Ютуб | Дни API | 28 июня 23 года | Безопасность языка AI на уровне API: предотвращение хаков, инъекций и нарушений |
Услуга | Канал | Дата | Название и ссылка |
---|---|---|---|
Ютуб | Дни API | 28 июня 23 года | Защита API LLM и NLP: путь к предотвращению утечки данных, атак и многого другого |
Имя | Тип | Примечание | Связь |
---|---|---|---|
СекДим | Атака и защита | Задача нападения и защиты, в которой игроки должны защитить секретную фразу своего чат-бота, одновременно атакуя чат-бота других игроков, чтобы украсть их. | https://play.secdim.com/game/ai-battle |
Оперативная атака GPT | Атака | Цель этой игры — придумать кратчайший пользовательский ввод, который обманом заставит систему вернуть вам секретный ключ. | https://ggpt.43z.one |
Гэндальф | Атака | Ваша цель — заставить Гэндальфа раскрыть секретный пароль для каждого уровня. Однако уровень Гэндальфа будет повышаться каждый раз, когда вы угадываете пароль, и будет стараться не выдать его. | https://gandalf.lakera.ai |