멋진 감사 알고리즘
블랙박스 알고리즘을 감사하기 위해 선별된 알고리즘 목록입니다. 오늘날 많은 알고리즘(추천, 점수 매기기, 분류)은 사용자나 기관이 데이터 작동 방식에 대한 통찰력을 갖지 못한 채 제3자 제공업체에서 운영됩니다. 따라서 이 목록의 감사 알고리즘은 한 감사자가 이러한 원격 알고리즘에 대한 통찰력을 얻고 싶어하는 "블랙박스" 설정이라고 불리는 이 설정에 적용됩니다.
사용자는 해당 알고리즘에 대한 정보를 추론하기 위해 원격 알고리즘(예: 사용 가능한 API를 통해)을 쿼리합니다.
내용물
서류
2024년
- 로컬 설명 감사는 어렵습니다. - (NeurIPS) 설명 감사에 (엄청난) 쿼리 복잡성을 제공합니다.
- LLM은 그래프도 환각합니다. 구조적 관점 - (복잡한 네트워크) 알려진 그래프에 대해 LLM을 쿼리하고 위상학적 환각을 연구합니다. 구조적 환각 순위를 제안합니다.
- 다중 에이전트 협업을 통한 공정성 감사 - (ECAI) 여러 에이전트가 함께 작업하고 각각 서로 다른 작업에 대해 동일한 플랫폼을 감사하는 것을 고려합니다.
- 알고리즘 감사 분야 매핑: 연구 동향, 언어 및 지리적 차이를 식별하는 체계적인 문헌 검토 - (Arxiv) 알고리즘 감사 연구에 대한 체계적인 검토 및 방법론적 접근 방식의 추세 식별.
- FairProof: 신경망을 위한 기밀 및 인증 가능한 공정성 - (Arxiv) 영지식 증명과 같은 암호화 도구를 사용하여 기존 감사에 대한 대안 패러다임을 제안합니다. 소규모 신경망의 공정성을 검증하기 위해 FairProof라는 시스템을 제공합니다.
- 조작된 일부 AI 모델은 감사하기가 더 어렵나요? - (SATML) Rademacher 복잡성을 사용하여 블랙박스 감사의 어려움을 대상 모델의 용량과 연관시킵니다.
- 언어 분류 모델에 대한 향상된 회원 추론 공격 - (ICLR) 감사 모드에서 분류자에 대한 회원 추론 공격을 실행하기 위한 프레임워크를 제시합니다.
- 베팅을 통한 공정성 감사 - (Neurips) [코드] 블랙박스 분류기 또는 회귀기에서 들어오는 데이터를 지속적으로 모니터링할 수 있는 순차적 방법입니다.
2023년
- 1회 훈련 실행을 통한 개인 정보 보호 감사 - (NeurIPS - 최고의 논문) 단일 훈련 실행으로 차등적으로 개인용 기계 학습 시스템을 감사하기 위한 체계입니다.
- 반사실 추론을 통해 무의식 상태에서 공정성을 감사 - (정보 처리 및 관리) 규정을 준수하는 블랙박스 모델이 여전히 편향되어 있는지 여부를 밝히는 방법을 보여줍니다.
- XAudit: 설명을 통한 감사에 대한 이론적 관점 - (Arxiv) 감사에서 설명의 역할을 공식화하고 모델 설명이 감사에 도움이 될 수 있는지 여부와 방법을 조사합니다.
- 언어 모델 유지: NLI 데이터 및 모델의 견고성-편향 상호 작용 - (Arxiv) 언어 모델 자체를 사용하여 감사 데이터 세트의 유효 기간을 연장하는 방법을 제안합니다. 또한 현재 편향 감사 지표의 문제점을 발견하고 대안을 제안합니다. 이러한 대안은 모델 취약성이 이전 편향 점수를 표면적으로 증가시켰다는 점을 강조합니다.
- 반복적 개선을 통한 온라인 공정성 감사 - (KDD) 공정성 지표 추정과 관련된 확률적 보증 추론을 자동화하는 적응형 프로세스를 제공합니다.
- 언어 모델의 디코딩 알고리즘 훔치기 - (CCS) LLM 디코딩 알고리즘의 유형과 하이퍼파라미터를 훔칩니다.
- YouTube에서 토끼굴 모델링 - (SNAM) YouTube에서 토끼굴에 갇힌 사용자의 역학을 모델링하고 이 인클로저에 대한 측정값을 제공합니다.
- 잘못된 정보 필터 버블에 대한 YouTube 추천 알고리즘 감사 - (추천 시스템의 거래) '버블을 터뜨리기' 위해 필요한 것, 즉 추천에서 버블 인클로저를 되돌리는 것입니다.
- 공정성의 렌즈를 통해 Yelp의 비즈니스 순위 및 리뷰 추천 감사 - (Arxiv) 인구통계학적 패리티, 노출 및 분위수 선형 및 로지스틱 회귀와 같은 통계 테스트를 통해 Yelp의 비즈니스 순위 및 리뷰 추천 시스템의 공정성을 감사합니다.
- Confidential-PROFITT: Confidential PROof of FaIr Training of Trees - (ICLR) 감사된 서버에서 공정성 증명을 얻기 위해 영지식 증명 프로토콜과 함께 공정한 결정 트리 학습 알고리즘을 제안합니다.
- 확장: 확장된 예측 일관성 분석을 통한 효율적인 블랙박스 입력 수준 백도어 탐지 - (ICLR) 서비스형 기계 학습(MLaaS) 애플리케이션의 블랙박스 설정에서 백도어 탐지를 고려합니다.
2022년
- Two-Face: 상업용 얼굴 인식 시스템에 대한 적대적 감사 - (ICWSM) 여러 시스템 API 및 데이터 세트에 대해 적대적 감사를 수행하여 많은 우려 사항을 관찰합니다.
- 검색 엔진 감사 확장: 알고리즘 감사를 위한 실용적인 통찰력 - (Journal of Information Science) (코드) 가상 에이전트를 사용하여 시뮬레이션된 탐색 동작을 사용하여 여러 검색 엔진을 감사합니다.
- 라임 향: 아키텍처 독립적인 모델 거리를 향하여 - (ICLR) LIME을 사용하여 두 원격 모델 간의 거리를 측정합니다.
- Active Fairness Auditing - (ICML) 쿼리 효율적인 방식으로 ML 모델의 인구통계학적 패리티를 추정할 수 있는 쿼리 기반 감사 알고리즘에 대한 연구입니다.
- 변화를 보세요! Sobol 기반 민감도 분석을 통한 효율적인 블랙박스 설명 - (NeurIPS) Sobol 인덱스는 이미지 영역 간의 고차 상호작용과 분산 렌즈를 통해 (블랙박스) 신경망 예측에 대한 기여도를 캡처하는 효율적인 방법을 제공합니다.
- 귀하의 에코가 들립니다: Amazon 스마트 스피커 생태계의 추적, 프로파일링 및 광고 타겟팅 - (arxiv) Amazon Echo 시스템과 광고 타겟팅 알고리즘 간의 링크를 추론합니다.
2021
- 심판이 플레이어인 경우: 전자상거래 시장의 자사 상표 제품 추천에 대한 편견 - (FAccT) Amazon 자사 상표 제품은 추천의 불공평한 몫을 가져서 타사 제품에 비해 이점이 있습니까?
- 일상적인 알고리즘 감사: 유해한 알고리즘 동작을 표면화하는 일상적인 사용자의 힘 이해 - (CHI) 사용자에 의한 "일상적인 알고리즘 감사"에 대한 사례를 만듭니다.
- 데이터 최소화 준수를 위한 블랙박스 예측 모델 감사 - (NeurIPS) 제한된 수의 쿼리를 사용하여 예측 모델이 충족하는 데이터 최소화 수준을 측정합니다.
- 섀도우 금지에 대한 기록을 보다 명확하게 설정 - (INFOCOM) (코드) 트위터에서 섀도우 금지의 가능성(예: 조정 블랙박스 알고리즘)을 고려하고 여러 가설의 확률을 측정합니다.
- 대규모 언어 모델에서 훈련 데이터 추출 - (USENIX 보안) GPT-2 모델의 훈련 데이터에서 축어적 텍스트 시퀀스를 추출합니다.
- FairLens: 블랙박스 임상 결정 지원 시스템 감사 - (정보 처리 및 관리) 다양한 다중 라벨 분류 불일치 측정값을 비교하여 임상 DSS의 잠재적인 공정성 문제를 감지하고 설명하는 파이프라인을 제시합니다.
- 트위터에서 알고리즘 편향 감사 - (WebSci).
- 베이지안 알고리즘 실행: 상호 정보를 사용하여 블랙박스 함수의 계산 가능한 속성 추정 - (ICML) 블랙박스 알고리즘에서 속성을 추출하기 위한 예산 제약 및 베이지안 최적화 절차입니다.
2020
- Black-Box Ripper: 생성 진화 알고리즘을 사용하여 블랙박스 모델 복사 - (NeurIPS) 블랙박스 신경 모델의 기능을 복제하지만 쿼리 양에는 제한이 없습니다(교사/학생 체계 및 진화 검색을 통해). .
- - (FAT*)에 대한 급진화 경로 감사 정적 채널 권장 사항에 대한 무작위 이동을 사용하여 서로 급진적인 채널의 도달 가능성을 연구합니다.
- 그래프 신경망의 적대적 모델 추출 - (그래프에 대한 딥 러닝에 관한 AAAI 워크샵: 방법론 및 애플리케이션) GNN 모델 추출을 소개하고 이에 대한 예비 접근 방식을 제시합니다.
- 원격 설명 가능성은 경비원 문제에 직면합니다. - (Nature Machine Intelligence 2권, 529~539페이지) (코드) 원격 AI 결정에 대한 설명에 거짓말을 발견하는 것이 불가능하거나(한 번의 요청으로) 어려움을 보여줍니다.
- GeoDA: 블랙박스 적대 공격을 위한 기하학적 프레임워크 - (CVPR) (코드) 순수 블랙박스 설정(그라디언트 없음, 추론 클래스만)에서 모델을 속이기 위한 적대적 예제를 만듭니다.
- 모방 게임: 블랙박스 추천기를 활용한 알고리즘 선택 - (Netys) (코드) 원격 및 더 잘 훈련된 결정을 모방하여 로컬 추천 알고리즘을 매개변수화합니다.
- 뉴스 큐레이션 시스템 감사: Apple 뉴스의 알고리즘 및 편집 논리를 조사하는 사례 연구 - (ICWSM) 사회기술적 뉴스 큐레이션 시스템인 Apple News에 대한 감사 연구(트렌딩 스토리 섹션)입니다.
- 감사 알고리즘: 교훈과 데이터 최소화의 위험 - (AIES) Telefónica에서 개발한 웰빙 추천 앱에 대한 실제 감사(주로 편견에 기반함)입니다.
- 대규모 언어 모델에서 훈련 데이터 추출 - (arxiv) 훈련 데이터 추출 공격을 수행하여 언어 모델을 쿼리하여 개별 훈련 예제를 복구합니다.
2019
- 원격 신경망 워터마킹을 위한 적대적 프론티어 스티칭 - (신경 컴퓨팅 및 애플리케이션) (대체 구현) 원격 기계 학습 모델이 "유출된" 모델인지 확인합니다. 원격 모델에 대한 표준 API 요청을 통해 제로를 추출하거나 추출하지 않습니다. 가치 있는 모델(예: 대규모 심층 신경망)을 워터마킹하기 위해 삽입된 비트 워터마크.
- Knockoff Nets: 블랙박스 모델의 기능 훔치기 - (CVPR) 공격자가 블랙박스 상호 작용(이미지 입력, 예측 출력)만을 기반으로 이러한 "피해자" 모델의 기능을 어느 정도 훔칠 수 있는지 물어보십시오.
- 블랙박스 열기: Google의 주요 뉴스 알고리즘 감사 - (Flairs-32) 뉴스 게시자를 선택하고 순위를 매기기 위한 알고리즘 선택에 대한 통찰력을 제공하는 Google의 주요 뉴스 패널에 대한 감사입니다.
- 표적 블랙박스 회피 공격을 효과적이고 효율적으로 만들기 - (arXiv) 공격자가 심층 신경망에 대한 표적 회피 공격을 위해 쿼리 예산을 최적으로 사용할 수 있는 방법을 조사합니다.
- 광고 경매의 인센티브 호환성 측정을 위한 온라인 학습 - (WWW) 블랙박스 경매 플랫폼의 인센티브 호환(IC) 메커니즘(후회)을 측정합니다.
- TamperNN: 배포된 신경망의 효율적인 변조 감지 - (ISSRE) 원격으로 실행되는 분류 모델을 사용하여 변조를 감지할 수 있는 입력을 만드는 알고리즘입니다.
- 아키텍처 힌트를 청취하여 엣지 장치의 신경망 모델 추출 공격 - (arxiv) 버스 스누핑에서 메모리 액세스 이벤트 획득, LSTM-CTC 모델에 의한 레이어 시퀀스 식별, 메모리 액세스 패턴에 따른 레이어 토폴로지 연결 및 레이어 차원 추정을 통해 데이터 볼륨 제약으로 인해 공격 시작점과 유사한 네트워크 아키텍처를 정확하게 복구할 수 있음을 보여줍니다.
- 레이블이 지정되지 않은 복합 데이터를 사용하여 보호된 심층 신경망에서 지식 훔치기 - (ICNN) 소프트맥스 출력을 완전히 숨기더라도 블랙박스 모델의 지식을 공격하고 추출하는 데 사용할 수 있는 복합 방법입니다.
- 배경 지식 정렬을 통한 적대적 설정의 신경망 반전 - (CCS) 원래 모델의 역으로 작동하는 반전 모델 훈련을 기반으로 하는 적대적 설정의 모델 반전 접근 방식입니다. 원래 훈련 데이터에 대한 완전한 지식이 없어도 보다 일반적인 데이터 분포에서 가져온 보조 샘플에 대한 반전 모델을 훈련함으로써 정확한 반전이 여전히 가능합니다.
2018
- 블랙박스를 열지 않은 반사실적 설명: 자동화된 결정 및 GDPR - (Harvard Journal of Law & Technology) x에 대한 결정을 설명하려면, 결정을 변경하는 x에 가장 가까운 지점인 상호실적을 찾으십시오.
- 증류 및 비교: 투명한 모델 증류를 사용하여 블랙박스 모델 감사 - (AIES) 블랙박스 모델을 교사로 취급하여 블랙박스 모델에 할당된 위험 점수를 모방하도록 투명한 학생 모델을 교육합니다.
- 리버스 엔지니어링 블랙박스 신경망을 향하여 - (ICLR) (코드) 특정 입력에 대한 응답 패턴을 분석하여 원격 신경망 모델의 내부 하이퍼 매개변수(예: 레이어 수, 비선형 활성화 유형)를 추론합니다.
- 적대적 도메인의 블랙박스 분류기에 대한 데이터 기반 탐색 공격 - (신경컴퓨팅) 원격 분류기 모델을 리버스 엔지니어링합니다(예: CAPTCHA 테스트 회피).
- xGEM: 블랙박스 모델을 설명하기 위한 예제 생성 - (arXiv) 감독되지 않은 암시적 생성 모델을 교육하여 블랙박스 모델의 편향을 검색합니다. 그런 다음 데이터 매니폴드를 따라 데이터 샘플을 교란하여 블랙박스 모델 동작을 정량적으로 요약합니다.
- 무작위 걷기 기반 노드 유사성으로부터 네트워크 학습 - (NIPS) 무작위 걷기 통근 시간을 관찰하여 그래프를 반전합니다.
- 블랙박스 모델에서 기계 학습 제품군 식별 - (CAEPIA) 반환된 예측 뒤에 어떤 종류의 기계 학습 모델이 있는지 확인합니다.
- 타이밍 사이드 채널을 통한 신경망 훔치기 - (arXiv) 쿼리를 사용한 타이밍 공격을 통해 모델을 훔치거나 근사화합니다.
- 모방 CNN: 레이블이 지정되지 않은 무작위 데이터로 고백을 설득하여 지식 훔치기 - (IJCNN)(코드) 무작위 자연 이미지(ImageNet 및 Microsoft-COCO)로 쿼리하여 블랙박스 모델(CNN) 지식을 훔칩니다.
- 정치적 관련 검색 엔진 결과 페이지의 개인화 및 구성 감사 - (WWW) 개인화 및 구성 연구를 위해 참가자를 설문조사하고 검색 엔진 결과 페이지(SERP) 및 자동 완성 제안을 수집하는 Chrome 확장 프로그램입니다.
2017년
- 영향 발견 요리책: 피어 순위 서비스의 토폴로지 영향 역엔지니어링 - (CSCW) 피어 순위 서비스에서 사용 중인 중심성 측정항목을 식별하는 것을 목표로 합니다.
- 추천의 토폴로지적 측면: 편향 탐지를 위한 모델 및 적용 - (복잡한 네트워크) 사용자에게 추천되는 항목에 대한 편향 탐지 프레임워크를 제안합니다.
- 기계 학습 모델에 대한 회원 추론 공격 - (보안 및 개인 정보 보호에 관한 심포지엄) 기계 학습 모델과 레코드가 주어지면 이 레코드가 모델 교육 데이터 세트의 일부로 사용되었는지 여부를 결정합니다.
- 기계 학습에 대한 실제 블랙박스 공격 - (아시아 CCS) 원격 서비스가 적대적 분류 공격에 얼마나 취약한지 이해합니다.
2016년
- 정량적 입력 영향을 통한 알고리즘 투명성: 학습 시스템을 사용한 이론 및 실험 - (IEEE S&P) 샤플리 값을 사용하여 모델에 대한 기능의 개별, 공동 및 한계 영향을 평가합니다.
- 간접 영향에 대한 블랙박스 모델 감사 - (ICDM) 데이터세트에서 해당 변수를 "영리하게" 제거하고 정확도 차이를 살펴봄으로써 블랙박스 모델에 대한 변수의 영향을 평가합니다.
- 블랙박스 모델의 편향 진단을 위한 반복적 직교 특징 투영 - (FATML 워크샵) 블랙박스 모델을 분석하기 위해 특징 순위 지정을 수행합니다.
- 온라인 프리랜서 시장의 편견: TaskRabbit의 증거 - (dat 워크샵) TaskRabbit의 검색 알고리즘 순위를 측정합니다.
- 예측 API를 통한 기계 학습 모델 훔치기 - (Usenix 보안)(코드) 원격 서비스에서 사용 중인 기계 학습 모델을 추출하는 것을 목표로 합니다.
- “왜 당신을 믿어야 할까요?” 분류기의 예측 설명 - (arXiv) (코드) 데이터 인스턴스를 샘플링하여 블랙박스 분류기 모델을 설명합니다.
- Back in Black: 살균제 및 필터의 공식적인 블랙박스 분석을 향하여 - (보안 및 개인 정보 보호) 살균제 및 필터의 블랙박스 분석.
- 정량적 입력 영향을 통한 알고리즘 투명성: 학습 시스템에 대한 이론 및 실험 - (보안 및 개인 정보 보호) 관찰된 시스템의 출력에 대한 입력의 영향 정도를 포착하는 조치를 소개합니다.
- Amazon Marketplace의 알고리즘 가격에 대한 실증적 분석 - (WWW) (코드) 알고리즘 가격을 감지하는 방법론을 개발하고 이를 경험적으로 사용하여 Amazon Marketplace에서의 알고리즘 가격 책정 및 행동을 분석합니다.
2015년
- 서로 다른 영향 인증 및 제거 - (SIGKDD) 편향이 없음을 인증하는 SVM 기반 방법과 데이터 세트에서 편향을 제거하는 방법을 제안합니다.
- Uber의 후드 아래 엿보기 - (IMC) Uber의 급등 가격 알고리즘의 구현 세부 사항을 추론합니다.
2014년
- 블랙박스 살펴보기: 무작위화를 통한 분류기 탐색 - (데이터 마이닝 및 지식 발견 저널)(코드) 예측 샘플의 출력 레이블을 변경하지 않고 순열할 수 있는 기능 그룹을 찾습니다.
- XRay: 차등 상관 관계를 통해 웹 투명성 향상 - (USENIX 보안) 특정 광고, 추천 또는 가격을 타겟팅하는 데 사용된 사용자 프로필 데이터를 감사합니다.
2013년
- 웹 검색의 개인화 측정 - (WWW) 웹 검색 결과의 개인화를 측정하는 방법론을 개발합니다.
- 감사: 결과 종속 쿼리 비용을 사용한 활성 학습 - (NIPS) 음수 레이블에 대해서만 비용을 지불하는 이진 분류자로부터 학습합니다.
2012년
- 볼록 유도 분류기 회피를 위한 쿼리 전략 - (JMLR) 볼록 분류기의 회피 방법입니다. 회피 복잡성을 고려합니다.
2008년
- 개인정보 보호 Oracle: 블랙박스 차등 테스트를 통해 애플리케이션 누출을 찾는 시스템 - (CCS) 개인정보 보호 Oracle: 원격 서버로 전송되는 애플리케이션의 개인 정보 누출을 찾아내는 시스템입니다.
2005년
- 적대적 학습(Adversarial Learning) - (KDD) 멤버십 쿼리를 사용하여 원격 선형 분류기를 역설계합니다.
관련 이벤트
2024년
- 감사와 인공지능에 관한 제1회 국제학술대회
- 규제 가능한 ML 워크숍(RegML'24)
2023년
- AI 테스트, 감사 및 콘테스트에 대한 사용자 참여 지원(CSCW 사용자 AI 감사)
- 알고리즘의 알고리즘 감사에 관한 워크숍(WAAA)
- 규제 가능한 ML 워크숍(RegML'23)