Потрясающие алгоритмы аудита
Кураторский список алгоритмов для аудита алгоритмов черного ящика. В настоящее время многие алгоритмы (рекомендации, оценки, классификации) используются сторонними поставщиками, при этом пользователи или учреждения не имеют никакого представления о том, как они работают со своими данными. Таким образом, алгоритмы аудита в этом списке применимы к этой схеме, получившей название «черный ящик», когда один аудитор хочет получить некоторое представление об этих удаленных алгоритмах.
Пользователь запрашивает удаленный алгоритм (например, через доступные API), чтобы получить информацию об этом алгоритме.
Содержание
- Статьи
- Сопутствующие мероприятия (конференции/семинары)
Статьи
2024 год
- Аудит локальных объяснений затруднен — (NeurIPS) Обеспечивает (непомерно) сложность запроса при аудите объяснений.
- LLM также галлюцинируют графы: структурная перспектива - (сложные сети) Запрашивает LLM известные графы и изучает топологические галлюцинации. Предлагает класс структурных галлюцинаций.
- Аудит честности с многоагентным сотрудничеством — (ECAI) Рассматривает совместную работу нескольких агентов, каждый из которых проверяет одну и ту же платформу для разных задач.
- Картирование области аудита алгоритмов: систематический обзор литературы, выявляющий тенденции исследований, лингвистические и географические различия - (Arxiv) Систематический обзор исследований по аудиту алгоритмов и выявление тенденций в их методологических подходах.
- FairProof: Конфиденциальная и поддающаяся сертификации честность для нейронных сетей - (Arxiv) Предлагает альтернативную парадигму традиционному аудиту с использованием криптографических инструментов, таких как доказательства с нулевым разглашением; дает систему под названием FairProof для проверки честности небольших нейронных сетей.
- Труднее ли проверять некоторые модели ИИ при манипуляциях? - (SATML) Связывает сложность аудита «черного ящика» с возможностями целевых моделей, используя сложность Радемахера.
- Улучшенные атаки на определение членства против моделей языковой классификации — (ICLR) Представляет структуру для проведения атак на классификатор в режиме аудита.
- Аудит честности путем ставок — (Neurips) [Код] Последовательные методы, позволяющие осуществлять непрерывный мониторинг входящих данных из классификатора или регрессора «черного ящика».
2023 год
- Аудит конфиденциальности с одним (1) обучающим прогоном — (NeurIPS — лучшая статья) Схема аудита дифференциально частных систем машинного обучения с одним обучающим прогоном.
- Аудит справедливости в условиях неосведомленности посредством контрфактических рассуждений - (Обработка и управление информацией) Показывает, как определить, является ли модель черного ящика, соответствующая правилам, все еще предвзятой или нет.
- XAudit: Теоретический взгляд на аудит с пояснениями - (Arxiv) Формализует роль объяснений в аудите и исследует, могут ли объяснения моделей помочь в аудите и если да, то как.
- Идти в ногу с языковыми моделями: взаимодействие устойчивости и предвзятости в данных и моделях NLI - (Arxiv) Предлагает способ продлить срок хранения наборов данных аудита за счет использования самих языковых моделей; также находит проблемы с текущими показателями аудита предвзятости и предлагает альтернативы — эти альтернативы подчеркивают, что хрупкость модели поверхностно увеличила предыдущие оценки предвзятости.
- Онлайн-аудит справедливости посредством итеративного уточнения — (KDD) Обеспечивает адаптивный процесс, который автоматизирует вывод вероятностных гарантий, связанных с оценкой показателей справедливости.
- Кража алгоритмов декодирования языковых моделей — (CCS) Кража типа и гиперпараметров алгоритмов декодирования LLM.
- Моделирование «кроличьих нор» на YouTube – (SNAM) Моделирует динамику захвата пользователей «кроличьими норами» на YouTube и обеспечивает измерение этой замкнутости.
- Аудит алгоритма рекомендаций YouTube на предмет пузырей фильтра дезинформации — (Транзакции в рекомендательных системах) Что нужно, чтобы «лопнуть пузырь», то есть вернуть пузырь из рекомендаций.
- Аудит рекомендаций по бизнес-рейтингу и обзорам Yelp через призму справедливости - (Arxiv) Аудит справедливости систем рекомендаций по бизнес-рейтингу и обзору Yelp с использованием демографического паритета, подверженности и статистических тестов, таких как квантильная линейная и логистическая регрессия.
- Confidential-PROFITT: Конфиденциальное ДОКАЗАТЕЛЬСТВО справедливого обучения деревьев - (ICLR) Предлагает справедливые алгоритмы обучения дерева решений вместе с протоколами доказательства с нулевым разглашением для получения доказательства честности на проверяемом сервере.
- МАСШТАБИРОВАНИЕ: эффективное обнаружение бэкдоров на входном уровне в формате «черного ящика» посредством анализа согласованности масштабируемого прогнозирования — (ICLR). Рассматривается обнаружение бэкдоров при настройке «черного ящика» в приложениях машинного обучения как услуги (MLaaS).
2022 год
- Двуликий: состязательный аудит коммерческих систем распознавания лиц - (ICWSM) Выполняет состязательный аудит API-интерфейсов и наборов данных нескольких систем, делая ряд тревожных наблюдений.
- Расширение масштабов аудита поисковых систем: практические советы по аудиту алгоритмов - (Журнал информатики) (Код) Аудит нескольких поисковых систем с использованием моделирования поведения просмотра с помощью виртуальных агентов.
- Изюминка: к расстоянию модели, независимому от архитектуры - (ICLR) Измеряет расстояние между двумя удаленными моделями с помощью LIME.
- Активный аудит честности — (ICML) Исследования алгоритмов аудита на основе запросов, которые могут оценить демографический паритет моделей ML эффективным для запросов способом.
- Посмотрите на дисперсию! Эффективные объяснения черного ящика с помощью анализа чувствительности на основе Соболя. Индексы Соболя (NeurIPS) обеспечивают эффективный способ фиксации взаимодействий более высокого порядка между областями изображения и их вклада в прогнозирование нейронной сети (черного ящика) через призму дисперсии.
- Ваше эхо услышано: отслеживание, профилирование и таргетинг рекламы в экосистеме умных колонок Amazon — (arxiv) Делает вывод о связи между системой Amazon Echo и алгоритмом таргетинга рекламы.
2021 год
- Когда судья также является игроком: предвзятость в рекомендациях по продуктам под частными торговыми марками на торговых площадках электронной коммерции - (FAccT) Получают ли продукты под собственными торговыми марками Amazon несправедливую долю рекомендаций и, следовательно, имеют ли они преимущества по сравнению с продуктами третьих лиц?
- Повседневный аудит алгоритмов: понимание возможностей обычных пользователей в выявлении вредоносного алгоритмического поведения - (CHI) Обосновывает необходимость «ежедневного алгоритмического аудита» пользователей.
- Аудит моделей прогнозирования «черного ящика» на соответствие требованиям минимизации данных — (NeurIPS) Измеряет уровень минимизации данных, удовлетворяемый моделью прогнозирования, с использованием ограниченного количества запросов.
- Установление более строгих правил в отношении теневого запрета - (ИНФОКОМ) (Код) Рассматривает возможность теневого бана в Твиттере (т. е. алгоритм модерации «черного ящика») и измеряет вероятность нескольких гипотез.
- Извлечение обучающих данных из больших языковых моделей — (Безопасность USENIX) Извлекайте дословные текстовые последовательности из обучающих данных модели GPT-2.
- FairLens: Аудит систем поддержки клинических решений «черного ящика» — (обработка и управление информацией) Представляет конвейер для обнаружения и объяснения потенциальных проблем справедливости в Clinical DSS путем сравнения различных показателей несоответствия классификации по нескольким меткам.
- Аудит алгоритмической предвзятости в Твиттере — (WebSci).
- Выполнение байесовского алгоритма: оценка вычислимых свойств функций черного ящика с использованием взаимной информации - (ICML) Процедура байесовской оптимизации с бюджетными ограничениями для извлечения свойств из алгоритма черного ящика.
2020 год
- Black-Box Ripper: копирование моделей черного ящика с использованием генеративных эволюционных алгоритмов - (NeurIPS) Воспроизводит функциональность нейронной модели черного ящика, но без ограничений на количество запросов (через схему учитель/ученик и эволюционный поиск). .
- Аудит путей радикализации - (FAT*) Изучает доступность радикальных каналов друг от друга, используя случайные блуждания по статическим рекомендациям каналов.
- Извлечение состязательной модели в нейронных сетях графов - (Семинар AAAI по глубокому обучению графов: методологии и приложения) знакомит с извлечением модели GNN и представляет предварительный подход к этому.
- Удаленное объяснение сталкивается с проблемой вышибалы - (Nature Machine Intelligence, том 2, страницы 529–539) (Код) Показывает невозможность (с помощью одного запроса) или сложность обнаружить ложь в объяснениях решений, принимаемых ИИ на расстоянии.
- GeoDA: геометрическая структура для состязательных атак черного ящика - (CVPR) (Код) Создает состязательные примеры для обмана моделей в чистом черном ящике (без градиентов, только выведенный класс).
- Игра в имитацию: выбор алгоритма с использованием рекомендателя черного ящика — (Netys) (Код) Параметризируйте локальный алгоритм рекомендаций, имитируя решение удаленного и лучше обученного алгоритма.
- Аудит систем курирования новостей: практический пример изучения алгоритмической и редакционной логики в Apple News - (ICWSM) Аудиторское исследование Apple News как социотехнической системы курирования новостей (раздел «Тенденции»).
- Алгоритмы аудита: извлеченные уроки и риски минимизации данных - (AIES) Практический аудит приложения для рекомендаций по благополучию, разработанного Telefónica (в основном на основе предвзятости).
- Извлечение обучающих данных из больших языковых моделей — (arxiv) Выполняет атаку с извлечением обучающих данных для восстановления отдельных обучающих примеров путем запроса языковой модели.
2019 год
- Сшивка состязательных границ для нанесения водяных знаков на удаленные нейронные сети — (Нейронные вычисления и приложения) (Альтернативная реализация) Проверьте, не является ли модель удаленного машинного обучения «утечкой»: с помощью стандартных запросов API к удаленной модели извлеките (или нет) нулевое значение. битовый водяной знак, который был вставлен для водяного знака ценных моделей (например, больших глубоких нейронных сетей).
- Сети-подделки: кража функциональности моделей «черного ящика» - (CVPR) Спросите, в какой степени злоумышленник может украсть функциональность таких моделей «жертвы», основанных исключительно на взаимодействиях «черного ящика»: изображение на входе, прогнозы на выходе.
- Открытие черного ящика: аудит алгоритма Google's Top Stories - (Flairs-32) Аудит панели Google Top Stories, который дает представление об алгоритмическом выборе для выбора и ранжирования издателя новостей.
- Создание целевых атак с уклонением от атак «черного ящика» эффективными и действенными — (arXiv) Исследует, как злоумышленник может оптимально использовать свой бюджет запросов для целевых атак с уклонением от глубоких нейронных сетей.
- Онлайн-обучение для измерения совместимости стимулов на рекламных аукционах — (WWW) Измеряет механизмы совместимости стимулов (IC) (сожаление) аукционных платформ «черного ящика».
- TamperNN: Эффективное обнаружение взлома развернутых нейронных сетей — (ISSRE) Алгоритмы для создания входных данных, которые могут обнаружить вмешательство в удаленно выполняемую модель классификатора.
- Атаки с извлечением модели нейронной сети в периферийных устройствах путем прослушивания подсказок по архитектуре - (arxiv) Путем получения событий доступа к памяти в результате отслеживания шины, идентификации последовательности слоев с помощью модели LSTM-CTC, соединения топологии слоев в соответствии с шаблоном доступа к памяти и оценки размеров уровня под ограничения по объему данных, это демонстрирует, что можно точно восстановить сетевую архитектуру, аналогичную начальной точке атаки.
- Кража знаний из защищенных глубоких нейронных сетей с использованием составных немаркированных данных — (ICNN) Составной метод, который можно использовать для атаки и извлечения знаний из модели черного ящика, даже если он полностью скрывает свои softmax-выходные данные.
- Инверсия нейронной сети в состязательных условиях посредством выравнивания фоновых знаний — (CCS) Подход к инверсии модели в состязательных условиях, основанный на обучении инверсионной модели, которая действует как инверсия исходной модели. Без полных знаний об исходных обучающих данных все еще возможна точная инверсия путем обучения модели инверсии на вспомогательных выборках, взятых из более общего распределения данных.
2018 год
- Контрфактические объяснения без открытия черного ящика: автоматизированные решения и GDPR - (Гарвардский журнал права и технологий) Чтобы объяснить решение по x, найдите контрфактуал: ближайшую к x точку, которая меняет решение.
- Перегонка и сравнение: аудит моделей «черного ящика» с использованием прозрачной дистилляции моделей — (AIES) рассматривает модели «черного ящика» как учителей, обучая прозрачные модели учащихся имитировать оценки риска, присваиваемые моделями «черного ящика».
- К обратному проектированию нейронных сетей черного ящика - (ICLR) (Код) Выводит внутренние гиперпараметры (например, количество слоев, тип нелинейной активации) модели удаленной нейронной сети путем анализа ее шаблонов реакции на определенные входные данные.
- Исследовательские атаки на основе данных на классификаторы «черного ящика» в состязательных доменах — (Нейрокомпьютеры) Реверс-инжиниринг моделей удаленных классификаторов (например, для обхода теста CAPTCHA).
- xGEM: создание примеров для объяснения моделей черного ящика - (arXiv) Ищет предвзятость в модели черного ящика путем обучения неконтролируемой неявной генеративной модели. Затем количественно суммирует поведение модели черного ящика, искажая выборки данных вдоль многообразия данных.
- Обучение сетей на основе сходства узлов на основе случайных блужданий - (NIPS) Реверсирование графиков путем наблюдения за некоторым временем перемещения на работу при случайном блуждании.
- Определение семейства машинного обучения на основе моделей «черного ящика» — (CAEPIA) Определяет, какой тип модели машинного обучения лежит в основе возвращаемых прогнозов.
- Кража нейронных сетей через временные побочные каналы — (arXiv) Кража/аппроксимация модели посредством тайминговых атак с использованием запросов.
- Подражание CNN: кража знаний путем убеждения исповеди с помощью случайных немаркированных данных - (IJCNN) (Код) Кража знаний моделей черного ящика (CNN) путем запроса к ним случайных естественных изображений (ImageNet и Microsoft-COCO).
- Аудит персонализации и состава страниц результатов поисковой системы, связанных с политикой. (WWW) Расширение Chrome для опроса участников и сбора страниц результатов поисковой системы (SERP) и предложений автозаполнения для изучения персонализации и композиции.
2017 год
- Раскрытие кулинарных книг влияния: обратный инжиниринг топологического воздействия в службах однорангового ранжирования - (CSCW) Цель - определить, какие показатели центральности используются в службе однорангового ранжирования.
- Топологическое лицо рекомендаций: модели и применение для обнаружения смещения - (Сложные сети) Предлагает структуру обнаружения смещения для элементов, рекомендуемых пользователям.
- Атаки на основе вывода о членстве против моделей машинного обучения — (Симпозиум по безопасности и конфиденциальности). Учитывая модель машинного обучения и запись, определите, использовалась ли эта запись как часть набора обучающих данных модели или нет.
- Практические атаки «черного ящика» на машинное обучение — (Азия CCS) Узнайте, насколько уязвима удаленная служба для состязательных классификационных атак.
2016 год
- Алгоритмическая прозрачность через количественное влияние входных данных: теория и эксперименты с системами обучения - (IEEE S&P) Оцените индивидуальное, совместное и незначительное влияние функций на модель, используя значения Шепли.
- Аудит моделей «черного ящика» на предмет косвенного влияния — (ICDM) Оцените влияние переменной на модель «черного ящика», «умно» удалив ее из набора данных и посмотрев на разницу в точности.
- Итеративное проецирование ортогональных признаков для диагностики смещения в моделях черного ящика - (Семинар FATML) Выполняет ранжирование признаков для анализа моделей черного ящика.
- Предвзятость на онлайн-рынках фрилансеров: данные TaskRabbit - (семинар dat) Измеряет рейтинг поискового алгоритма TaskRabbit.
- Кража моделей машинного обучения с помощью API-интерфейсов прогнозирования — (Usenix Security) (Код) Целью является извлечение моделей машинного обучения, используемых удаленными службами.
- «Почему я должен вам доверять?» Объяснение предсказаний любого классификатора - (arXiv) (Код) Объясняет модель классификатора «черный ящик» путем выборки экземпляров данных.
- Назад в черном: к формальному анализу дезинфицирующих средств и фильтров «черный ящик» - (Безопасность и конфиденциальность) Анализ дезинфицирующих средств и фильтров «черный ящик».
- Алгоритмическая прозрачность через количественное влияние входных данных: теория и эксперименты с системами обучения - (Безопасность и конфиденциальность) Вводит меры, которые фиксируют степень влияния входных данных на выходные данные наблюдаемой системы.
- Эмпирический анализ алгоритмического ценообразования на Amazon Marketplace — (WWW) (Код) Разрабатывает методологию определения алгоритмического ценообразования и эмпирически использует ее для анализа их распространенности и поведения на Amazon Marketplace.
2015 год
- Сертификация и устранение неравномерного воздействия - (SIGKDD) Предлагает методы на основе SVM для подтверждения отсутствия систематической ошибки и методы устранения систематической ошибки из набора данных.
- Заглядывая под капот Uber — (IMC) Выясните детали реализации алгоритма повышения цен Uber.
2014 год
- Взгляд в черный ящик: изучение классификаторов путем рандомизации - (журнал Data Mining and Knowledge Discovery) (код) Находит группы функций, которые можно переставлять без изменения выходной метки прогнозируемых выборок.
- XRay: повышение прозрачности Интернета с помощью дифференциальной корреляции — (USENIX Security) Проверяет, какие данные профиля пользователя использовались для таргетинга конкретного объявления, рекомендации или цены.
2013 год
- Измерение персонализации веб-поиска - (WWW) Разрабатывает методологию измерения персонализации результатов веб-поиска.
- Аудит: активное обучение с затратами на запросы, зависящими от результата — (NIPS) Обучение с помощью двоичного классификатора с оплатой только за отрицательные метки.
2012 год
- Стратегии запроса для уклонения от выпуклых классификаторов - (JMLR) Методы уклонения для выпуклых классификаторов. Учитывает сложность уклонения.
2008 год
- Privacy Oracle: система обнаружения утечек приложений с помощью дифференциального тестирования черного ящика - (CCS) Privacy Oracle: система, которая обнаруживает утечки личной информации приложений при передаче на удаленные серверы.
2005 г.
- Состязательное обучение — (KDD) Обратное проектирование удаленных линейных классификаторов с использованием запросов членства.
Связанные события
2024 год
- 1-я Международная конференция по аудиту и искусственному интеллекту
- Семинар по регулируемому ML (RegML'24)
2023 год
- Поддержка участия пользователей в тестировании, аудите и оспаривании ИИ (аудит ИИ пользователей CSCW)
- Семинар по алгоритмическому аудиту алгоритмов (WAAA)
- Семинар по регулируемому ML (RegML'23)