Python 이상치 감지(PyOD)
배포 및 문서화, 통계 및 라이센스
먼저 읽어주세요
다변량 데이터의 이상 징후를 탐지하기 위한 포괄적이지만 사용하기 쉬운 Python 라이브러리인 PyOD에 오신 것을 환영합니다. 소규모 프로젝트를 처리하든 대규모 데이터 세트를 처리하든 PyOD는 필요에 맞는 다양한 알고리즘을 제공합니다.
- 시계열 이상값 감지에는 TODS를 사용하세요.
- 그래프 이상값 감지를 위해서는 PyGOD를 사용하세요.
- 성능 비교 및 데이터 세트 : 우리는 45페이지 분량의 포괄적인 이상 탐지 벤치마크 문서를 보유하고 있습니다. 완전 오픈 소스 ADBench는 57개 벤치마크 데이터세트에서 30개 이상 탐지 알고리즘을 비교합니다.
- 이상 탐지 리소스에서 이상 탐지에 대해 자세히 알아보세요.
- 분산 시스템의 PyOD : Databrick에서 PyOD를 실행할 수도 있습니다.
PyOD 소개
2017년에 설립된 PyOD는 다변량 데이터에서 변칙적/외부 객체를 탐지하기 위한 Python 라이브러리 로 자리 잡았습니다. 흥미롭지만 도전적인 이 분야를 일반적으로 이상치 탐지 또는 이상 탐지라고 합니다.
PyOD에는 기존 LOF(SIGMOD 2000)부터 최첨단 ECOD 및 DIF(TKDE 2022 및 2023)까지 50개 이상의 감지 알고리즘이 포함되어 있습니다. 2017년부터 PyOD는 수많은 학술 연구 프로젝트와 상용 제품에 성공적으로 사용되어 2,200만 건 이상의 다운로드를 기록했습니다. 또한 Analytics Vidhya, KDnuggets 및 Towards Data Science를 포함한 다양한 전용 게시물/튜토리얼을 통해 기계 학습 커뮤니티에서도 잘 인정받고 있습니다.
PyOD의 특징은 다음과 같습니다 .
- 다양한 알고리즘에 걸쳐 통합된 사용자 친화적인 인터페이스 .
- PyTorch 의 고전적인 기술부터 최신 딥러닝 방법까지 다양한 모델 .
- 고성능 및 효율성 , JIT 컴파일 및 병렬 처리를 위해 numba 및 joblib를 활용합니다.
- SUOD 프레임워크[50]를 통해 달성되는 빠른 훈련 및 예측 .
5줄의 코드로 이상값 감지 :
# Example: Training an ECOD detector
from pyod . models . ecod import ECOD
clf = ECOD ()
clf . fit ( X_train )
y_train_scores = clf . decision_scores_ # Outlier scores for training data
y_test_scores = clf . decision_function ( X_test ) # Outlier scores for test data
올바른 알고리즘 선택: 어디서부터 시작해야 할지 모르시나요? 다음과 같은 강력하고 해석 가능한 옵션을 고려하십시오.
- ECOD: 이상값 탐지를 위해 ECOD를 사용하는 예
- Isolation Forest: 이상값 탐지를 위해 Isolation Forest를 사용하는 예
또는 데이터 기반 접근 방식을 위해 MetaOD를 살펴보세요.
PyOD 인용 :
PyOD 논문은 JMLR(Journal of Machine Learning Research)(MLOSS 트랙)에 게재되었습니다. 과학 출판물에서 PyOD를 사용하는 경우 다음 논문을 인용해 주시면 감사하겠습니다.
@article{zhao2019pyod,
작성자 = {Zhao, Yue 및 Nasrullah, Zain 및 Li, Zheng},
title = {PyOD: 확장 가능한 이상치 탐지를 위한 Python 도구 상자},
저널 = {머신러닝 연구 저널},
연도 = {2019},
볼륨 = {20},
번호 = {96},
페이지 = {1-7},
URL = {http://jmlr.org/papers/v20/19-011.html}
}
또는:
Zhao, Y., Nasrullah, Z. 및 Li, Z., 2019. PyOD: 확장 가능한 이상치 탐지를 위한 Python 도구 상자. 기계 학습 연구 저널(JMLR), 20(96), pp.1-7.
이상 감지에 대한 더 넓은 관점을 보려면 NeurIPS 논문 ADBench: 이상 감지 벤치마크 문서 및 ADGym: 심층 이상 감지를 위한 설계 선택을 참조하세요.
@article{han2022adbench,
title={Adbench: 이상 탐지 벤치마크},
작성자={Han, Songqiao 및 Hu, Xiyang 및 Huang, Hailiang 및 Jiang, Minqi 및 Zhao, Yue},
저널={신경 정보 처리 시스템의 발전},
볼륨={35},
페이지={32142--32159},
연도={2022}
}
@article{jiang2023adgym,
title={ADGym: 심층적인 이상 탐지를 위한 설계 선택},
저자={Jiang, Minqi 및 Hou, Chaochuan 및 Zheng, Ao 및 Han, Songqiao 및 Huang, Hailiang 및 Wen, Qingsong 및 Hu, Xiyang 및 Zhao, Yue},
저널={신경 정보 처리 시스템의 발전},
볼륨={36},
연도={2023}
}
목차 :
- 설치
- API 치트시트 및 참조
- ADBench 벤치마크 및 데이터 세트
- 모델 저장 및 로드
- SUOD를 통한 빠른 열차
- 임계값 이상점 점수
- 구현된 알고리즘
- 이상치 감지를 위한 빠른 시작
- 기여하는 방법
- 포함 기준
설치
PyOD는 pip 또는 conda를 사용하여 쉽게 설치할 수 있도록 설계되었습니다. 빈번한 업데이트와 개선으로 인해 최신 버전의 PyOD를 사용하는 것이 좋습니다.
pip install pyod # normal install
pip install --upgrade pyod # or update if needed
conda install -c conda-forge pyod
또는 setup.py 파일을 복제하고 실행할 수 있습니다.
git clone https://github.com/yzhao062/pyod.git
cd pyod
pip install .
필수 종속성 :
- 파이썬 3.8 이상
- joblib
- matplotlib
- numpy>=1.19
- 숫자>=0.51
- 사이피>=1.5.1
- scikit_learn>=0.22.0
선택적 종속성(아래 세부정보 참조) :
- 콤보(선택 사항, models/combination.py 및 FeatureBagged에 필요)
- pytorch(선택 사항, AutoEncoder 및 기타 딥 러닝 모델에 필요)
- suod(선택 사항, SUOD 모델 실행에 필요)
- xgboost(선택 사항, XGBOD에 필수)
- pythresh(선택사항, 임계값 설정에 필요)
API 치트시트 및 참조
전체 API 참조는 PyOD 문서에서 확인할 수 있습니다. 다음은 모든 감지기에 대한 간단한 치트시트입니다.
- fit(X) : 감지기를 맞춥니다. 비지도 메서드에서는 매개변수 y가 무시됩니다.
- Decision_function(X) : 피팅된 검출기를 사용하여 X에 대한 원시 이상 점수를 예측합니다.
- 예측(X) : 피팅된 검출기를 사용하여 샘플이 이상값인지 여부를 이진 레이블로 확인합니다.
- Predict_proba(X) : 피팅된 검출기를 사용하여 샘플이 이상값일 확률을 추정합니다.
- 예측_신뢰(X) : 샘플별로 모델의 신뢰도를 평가합니다(예측 및 예측_프로바에 적용 가능) [35].
적합 모델의 주요 속성 :
- Decision_scores_ : 훈련 데이터의 이상점 점수입니다. 점수가 높을수록 일반적으로 비정상적인 행동이 더 많다는 것을 나타냅니다. 이상값은 일반적으로 더 높은 점수를 갖습니다.
- labels_ : 훈련 데이터의 이진 레이블입니다. 여기서 0은 이상값을 나타내고 1은 이상값/이상치를 나타냅니다.
ADBench 벤치마크 및 데이터 세트
우리는 가장 포괄적인 ADBench: 이상 탐지 벤치마크[15]인 45페이지 분량을 출시했습니다. 완전 오픈 소스 ADBench는 57개 벤치마크 데이터세트에서 30개 이상 탐지 알고리즘을 비교합니다.
ADBench 의 구성은 다음과 같습니다.
더 간단한 시각화를 위해 Compare_all_models.py를 통해 선택한 모델을 비교 합니다.
모델 저장 및 로드
PyOD는 모델 지속성과 관련하여 sklearn과 유사한 접근 방식을 취합니다. 자세한 내용은 모델 지속성을 참조하세요.
즉, PyOD 모델을 저장하고 로드하려면 joblib 또는 pickle을 사용하는 것이 좋습니다. 예제는 "examples/save_load_model_example.py"를 참조하세요. 간단히 말하면 아래와 같이 간단합니다.
from joblib import dump , load
# save the model
dump ( clf , 'clf.joblib' )
# load the model
clf = load ( 'clf.joblib' )
신경망 모델을 저장하는 데 어려움이 있는 것으로 알려져 있습니다. 임시 해결 방법은 #328 및 #88을 확인하세요.
SUOD를 통한 빠른 열차
빠른 학습 및 예측 : SUOD 프레임워크를 활용하여 PyOD에서 많은 수의 탐지 모델로 학습 및 예측이 가능합니다[50]. SUOD Paper 및 SUOD 예를 참조하세요.
from pyod . models . suod import SUOD
# initialized a group of outlier detectors for acceleration
detector_list = [ LOF ( n_neighbors = 15 ), LOF ( n_neighbors = 20 ),
LOF ( n_neighbors = 25 ), LOF ( n_neighbors = 35 ),
COPOD (), IForest ( n_estimators = 100 ),
IForest ( n_estimators = 200 )]
# decide the number of parallel process, and the combination method
# then clf can be used as any outlier detection model
clf = SUOD ( base_estimators = detector_list , n_jobs = 2 , combination = 'average' ,
verbose = False )
임계값 이상점 점수
오염 수준을 설정할 때 보다 데이터 기반 접근 방식을 취할 수 있습니다. 임계값 방법을 사용하면 임의의 값을 추측하는 것이 테스트된 내부값과 이상값 분리 기술로 대체될 수 있습니다. 임계값 설정에 대해 더 자세히 알아보려면 PyThresh를 참조하세요.
from pyod . models . knn import KNN
from pyod . models . thresholds import FILTER
# Set the outlier detection and thresholding methods
clf = KNN ( contamination = FILTER ())
임계값 지정에서 지원되는 임계값 지정 방법을 참조하세요.
구현된 알고리즘
PyOD 툴킷은 네 가지 주요 기능 그룹으로 구성됩니다.
(i) 개별 탐지 알고리즘 :
유형 | 약어 | 연산 | 년도 | 참조 |
---|
확률적 | ECOD | 경험적 누적 분포 함수를 사용한 비지도 이상치 탐지 | 2022년 | [28] |
확률적 | ABOD | 각도 기반 이상치 감지 | 2008년 | [22] |
확률적 | FastABOD | 근사치를 사용한 빠른 각도 기반 이상값 감지 | 2008년 | [22] |
확률적 | COPOD | COPOD: 코퓰라 기반 이상치 감지 | 2020 | [27] |
확률적 | 미친 | 중앙 절대 편차(MAD) | 1993년 | [19] |
확률적 | 위급 신호 | 확률적 이상치 선택 | 2012 | [20] |
확률적 | QMCD | Quasi-Monte Carlo 불일치 이상치 탐지 | 2001년 | [11] |
확률적 | KDE | 커널 밀도 함수를 사용한 이상치 감지 | 2007년 | [24] |
확률적 | 견본 추출 | 샘플링을 통한 신속한 거리 기반 이상치 감지 | 2013년 | [42] |
확률적 | GMM | 이상값 분석을 위한 확률적 혼합 모델링 | | [1] [2장] |
선형 모델 | PCA | 주성분 분석(고유벡터 초평면에 대한 가중 투영 거리의 합) | 2003년 | [41] |
선형 모델 | KPCA | 커널 주요 구성 요소 분석 | 2007년 | [18] |
선형 모델 | MCD | 최소 공분산 결정자(이상치 점수로 마할라노비스 거리 사용) | 1999년 | [16] [37] |
선형 모델 | CD | 이상치 감지를 위해 Cook의 거리 사용 | 1977년 | [10] |
선형 모델 | OCSVM | 단일 클래스 서포트 벡터 머신 | 2001년 | [40] |
선형 모델 | LMDD | 편차 기반 이상값 감지(LMDD) | 1996년 | [6] |
근접 기반 | 로프 | 지역 이상치 요인 | 2000 | [8] |
근접 기반 | COF | 연결 기반 이상값 요인 | 2002년 | [43] |
근접 기반 | (증분) COF | 메모리 효율적인 연결 기반 이상값 요소(느리지만 스토리지 복잡성 감소) | 2002년 | [43] |
근접 기반 | CBLOF | 클러스터링 기반 로컬 이상값 요인 | 2003년 | [17] |
근접 기반 | 로시 | LOCI: 국소 상관 적분을 사용한 빠른 이상값 탐지 | 2003년 | [33] |
근접 기반 | HBOS | 히스토그램 기반 이상점 점수 | 2012 | [12] |
근접 기반 | kNN | k 가장 가까운 이웃(k번째 가장 가까운 이웃까지의 거리를 특이점 점수로 사용) | 2000 | [36] |
근접 기반 | 평균KNN | 평균 kNN(최근접 이웃 k개까지의 평균 거리를 이상치 점수로 사용) | 2002년 | [5] |
근접 기반 | MedKNN | 중앙값 kNN(k개의 가장 가까운 이웃까지의 중앙값 거리를 이상값 점수로 사용) | 2002년 | [5] |
근접 기반 | 잔디 | 부분 공간 이상치 감지 | 2009년 | [23] |
근접 기반 | 막대 | 회전 기반 이상치 감지 | 2020 | [4] |
이상치 앙상블 | 아이포레스트 | 고립된 숲 | 2008년 | [29] |
이상치 앙상블 | 인느 | 최근접 이웃 앙상블을 사용한 격리 기반 이상 탐지 | 2018 | [7] |
이상치 앙상블 | DIF | 이상 탐지를 위한 심층 격리 포레스트 | 2023년 | [45] |
이상치 앙상블 | 페이스북 | 기능 배깅 | 2005년 | [25] |
이상치 앙상블 | LSCP | LSCP: 병렬 이상값 앙상블의 국부적으로 선택적인 조합 | 2019 | [49] |
이상치 앙상블 | XGBOD | 익스트림 부스팅 기반 이상값 감지 (감독됨) | 2018 | [48] |
이상치 앙상블 | 로다 | 경량 온라인 이상 탐지기 | 2016년 | [34] |
이상치 앙상블 | 수드 | SUOD: 대규모 비지도 이종 이상치 탐지 가속화 (가속) | 2021 | [50] |
신경망 | 자동인코더 | 완전히 연결된 AutoEncoder(재구성 오류를 특이점 점수로 사용) | | [1] [3장] |
신경망 | VAE | Variational AutoEncoder(재구성 오류를 특이점 점수로 사용) | 2013년 | [21] |
신경망 | 베타-VAE | Variational AutoEncoder(감마 및 용량을 변경하여 모든 사용자 정의된 손실 기간) | 2018 | [9] |
신경망 | SO_GAAL | 단일 목표 생성적 적대적 능동 학습 | 2019 | [30] |
신경망 | MO_GAAL | 다중 목표 생성적 적대적 능동 학습 | 2019 | [30] |
신경망 | DeepSVDD | 심층적인 단일 클래스 분류 | 2018 | [38] |
신경망 | 아노GAN | 생성적 적대 신경망(Generative Adversarial Network)을 통한 이상 탐지 | 2017년 | [39] |
신경망 | 알라드 | 적대적으로 학습된 이상 탐지 | 2018 | [47] |
신경망 | AE1SVM | 오토인코더 기반 단일 클래스 지원 벡터 머신 | 2019 | [31] |
신경망 | 데브넷 | 편차 네트워크를 통한 심층 이상 탐지 | 2019 | [32] |
그래프 기반 | R 그래프 | R 그래프를 통한 이상치 탐지 | 2017년 | [46] |
그래프 기반 | 달의 | LUNAR: 그래프 신경망을 통한 로컬 이상치 감지 방법 통합 | 2022년 | [13] |
(ii) 이상치 앙상블 및 이상치 검출기 조합 프레임워크 :
유형 | 약어 | 연산 | 년도 | 참조 |
---|
이상치 앙상블 | 페이스북 | 기능 배깅 | 2005년 | [25] |
이상치 앙상블 | LSCP | LSCP: 병렬 이상값 앙상블의 국부적으로 선택적인 조합 | 2019 | [49] |
이상치 앙상블 | XGBOD | 익스트림 부스팅 기반 이상값 감지 (감독됨) | 2018 | [48] |
이상치 앙상블 | 로다 | 경량 온라인 이상 탐지기 | 2016년 | [34] |
이상치 앙상블 | 수드 | SUOD: 대규모 비지도 이종 이상치 탐지 가속화 (가속) | 2021 | [50] |
이상치 앙상블 | 인네 | 최근접 이웃 앙상블을 사용한 격리 기반 이상 탐지 | 2018 | [7] |
콤비네이션 | 평균 | 점수를 평균하여 간단한 조합 | 2015년 | [2] |
콤비네이션 | 가중 평균 | 검출기 가중치로 점수를 평균화하여 간단한 조합 | 2015년 | [2] |
콤비네이션 | 극대화 | 최대 점수를 취하는 간단한 조합 | 2015년 | [2] |
콤비네이션 | AOM | 최대 평균 | 2015년 | [2] |
콤비네이션 | 모아 | 평균의 극대화 | 2015년 | [2] |
콤비네이션 | 중앙값 | 점수의 중앙값을 취하는 간단한 조합 | 2015년 | [2] |
콤비네이션 | 다수 투표 | 라벨의 과반수 투표를 통한 간단한 조합(가중치 사용 가능) | 2015년 | [2] |
(iii) 유틸리티 기능 :
유형 | 이름 | 기능 | 선적 서류 비치 |
---|
데이터 | 생성_데이터 | 합성 데이터 생성; 정규 데이터는 다변량 가우스에 의해 생성되고 이상값은 균일 분포에 의해 생성됩니다. | 생성_데이터 |
데이터 | generate_data_clusters | 클러스터에서 합성된 데이터 생성 여러 클러스터를 사용하면 더 복잡한 데이터 패턴을 만들 수 있습니다. | generate_data_clusters |
통계 | wpearsonr | 두 표본의 가중 Pearson 상관관계 계산 | wpearsonr |
공익사업 | get_label_n | 상위 n개 이상점 점수에 1을 할당하여 원시 이상점 점수를 이진 레이블로 변환합니다. | get_label_n |
공익사업 | 정밀도_n_점수 | 정밀도 @ 순위 n 계산 | 정밀도_n_점수 |
이상치 감지를 위한 빠른 시작
PyOD는 몇 가지 특집 게시물과 튜토리얼을 통해 기계 학습 커뮤니티에서 잘 인정받았습니다.
Analytics Vidhya : PyOD 라이브러리를 사용하여 Python에서 이상치 감지를 학습하는 멋진 튜토리얼
KDnuggets : 이상치 탐지 방법의 직관적인 시각화, PyOD의 이상치 탐지 방법 개요
데이터 과학을 향하여 : 인형을 위한 이상 탐지
"examples/knn_example.py"는 kNN 감지기를 사용하는 기본 API를 보여줍니다. 다른 모든 알고리즘의 API는 일관성/유사함을 알 수 있습니다 .
예제 실행에 대한 자세한 지침은 예제 디렉터리에서 찾을 수 있습니다.
kNN 검출기를 초기화하고, 모델을 피팅하고, 예측합니다.
from pyod . models . knn import KNN # kNN detector
# train kNN detector
clf_name = 'KNN'
clf = KNN ()
clf . fit ( X_train )
# get the prediction label and outlier scores of the training data
y_train_pred = clf . labels_ # binary labels (0: inliers, 1: outliers)
y_train_scores = clf . decision_scores_ # raw outlier scores
# get the prediction on the test data
y_test_pred = clf . predict ( X_test ) # outlier labels (0 or 1)
y_test_scores = clf . decision_function ( X_test ) # outlier scores
# it is possible to get the prediction confidence as well
y_test_pred , y_test_pred_confidence = clf . predict ( X_test , return_confidence = True ) # outlier labels (0 or 1) and confidence in the range of [0,1]
ROC 및 Precision @ Rank n(p@n)으로 예측을 평가합니다.
from pyod . utils . data import evaluate_print
# evaluate and print the results
print ( " n On Training Data:" )
evaluate_print ( clf_name , y_train , y_train_scores )
print ( " n On Test Data:" )
evaluate_print ( clf_name , y_test , y_test_scores )
샘플 출력 및 시각화를 확인하세요.
On Training Data :
KNN ROC : 1.0 , precision @ rank n : 1.0
On Test Data :
KNN ROC : 0.9989 , precision @ rank n : 0.9
visualize ( clf_name , X_train , y_train , X_test , y_test , y_train_pred ,
y_test_pred , show_figure = True , save_figure = False )
시각화(knn_Figure):
참조
[1] | (1, 2) Aggarwal, CC, 2015. 특이치 분석. 데이터 마이닝(pp. 237-263). 스프링거, 참. |
[2] | (1, 2, 3, 4, 5, 6, 7) Aggarwal, CC 및 Sathe, S., 2015. 이상치 앙상블을 위한 이론적 기초 및 알고리즘. ACM SIGKDD 탐사 뉴스레터 , 17(1), pp.24-47. |
[3] | Aggarwal, CC 및 Sathe, S., 2017. 이상치 앙상블: 소개. 뛰는 것. |
[4] | Almardeny, Y., Boujnah, N. 및 Cleary, F., 2020. 다변량 데이터에 대한 새로운 이상치 탐지 방법. 지식 및 데이터 엔지니어링에 관한 IEEE 거래 . |
[5] | (1, 2) Angiulli, F. 및 Pizzuti, C., 2002, 8월. 고차원 공간에서 이상값을 빠르게 감지합니다. 데이터 마이닝 및 지식 발견의 원리에 관한 유럽 회의 에서 pp. 15-27. |
[6] | Arning, A., Agrawal, R. 및 Raghavan, P., 1996, 8월. 대규모 데이터베이스의 편차 탐지를 위한 선형 방법. KDD (Vol. 1141, No. 50, pp. 972-981). |
[7] | (1, 2) Bandaragoda, TR, Ting, KM, Albrecht, D., Liu, FT, Zhu, Y. 및 Wells, JR, 2018, 최근접 이웃 앙상블을 사용한 격리 기반 이상 탐지. 계산 지능 , 34(4), pp. 968-998. |
[8] | Breunig, MM, Kriegel, HP, Ng, RT 및 Sander, J., 2000, 5월. LOF: 밀도 기반 로컬 이상값을 식별합니다. ACM Sigmod 레코드 , 29(2), 93-104페이지. |
[9] | 버제스, 크리스토퍼 P., 등. "베타-VAE의 풀림 이해." arXiv 사전 인쇄 arXiv:1804.03599 (2018). |
[10] | Cook, RD, 1977. 선형 회귀에서 영향력 있는 관찰 탐지. 기술계량학, 19(1), pp.15-18. |
[11] | Fang, KT 및 Ma, CX, 2001. 무작위 샘플링, 라틴 하이퍼큐브 및 균일 설계의 랩 어라운드 L2 불일치. 복잡성 저널, 17(4), pp.608-624. |
[12] | Goldstein, M. 및 Dengel, A., 2012. 히스토그램 기반 이상치 점수(hbos): 빠른 비지도 이상 징후 탐지 알고리즘. KI-2012: 포스터 및 데모 트랙 , pp.59-63. |
[13] | Goodge, A., Hooi, B., Ng, SK 및 Ng, WS, 2022년 6월. Lunar: 그래프 신경망을 통해 로컬 이상치 감지 방법을 통합합니다. 인공 지능에 관한 AAAI 회의 진행 중. |
[14] | Gopalan, P., Sharan, V. 및 Wieder, U., 2019. PIDForest: 부분 식별을 통한 이상 탐지. 신경 정보 처리 시스템의 발전, pp. 15783-15793. |
[15] | Han, S., Hu, X., Huang, H., Jiang, M. 및 Zhao, Y., 2022. ADBench: 이상 탐지 벤치마크. arXiv 사전 인쇄 arXiv:2206.09426. |
[16] | Hardin, J. 및 Rocke, DM, 2004. 최소 공분산 결정 요인 추정기를 사용하여 다중 클러스터 설정에서 이상값 감지. 전산통계 및 데이터분석 , 44(4), pp.625-638. |
[17] | He, Z., Xu, X. 및 Deng, S., 2003. 클러스터 기반 로컬 이상값 발견. 패턴 인식 문자 , 24(9-10), pp.1641-1650. |
[18] | Hoffmann, H., 2007. 참신함 탐지를 위한 커널 PCA. 패턴 인식, 40(3), pp.863-874. |
[19] | Iglewicz, B. 및 Hoaglin, DC, 1993. 이상값을 감지하고 처리하는 방법(16권). Asq 프레스. |
[20] | Janssens, JHM, Huszár, F., Postma, EO 및 van den Herik, HJ, 2012. 확률론적 이상치 선택. 기술 보고서 TiCC TR 2012-001, Tilburg University, Tilburg 인지 및 커뮤니케이션 센터, 네덜란드 Tilburg. |
[21] | Kingma, DP 및 Welling, M., 2013. 자동 인코딩 변형 베이. arXiv 사전 인쇄 arXiv:1312.6114. |
[22] | (1, 2) Kriegel, HP 및 Zimek, A., 2008년 8월. 고차원 데이터의 각도 기반 이상값 탐지. KDD '08 , pp. 444-452. ACM. |
[23] | Kriegel, HP, Kröger, P., Schubert, E. 및 Zimek, A., 2009년 4월. 고차원 데이터의 축 평행 부분 공간에서 이상값을 감지합니다. 지식 발견 및 데이터 마이닝에 관한 태평양 아시아 컨퍼런스 , pp. 831-838. 스프링거, 베를린, 하이델베르그. |
[24] | Latecki, LJ, Lazarevic, A. 및 Pokrajac, D., 2007년 7월. 커널 밀도 함수를 사용한 이상치 감지. 패턴 인식의 기계 학습 및 데이터 마이닝에 관한 국제 워크숍(pp. 61-75). 스프링거, 베를린, 하이델베르그. |
[25] | (1, 2) Lazarevic, A. 및 Kumar, V., 2005, 8월. 이상치 탐지를 위한 기능 배깅. KDD '05 . 2005. |
[26] | Li, D., Chen, D., Jin, B., Shi, L., Goh, J. 및 Ng, SK, 2019년 9월. MAD-GAN: 생성적 적대 네트워크를 사용하여 시계열 데이터에 대한 다변량 이상 탐지. 인공 신경망에 관한 국제 컨퍼런스 (pp. 703-716). 스프링거, 참. |
[27] | Li, Z., Zhao, Y., Botta, N., Ionescu, C. 및 Hu, X. COPOD: 코풀라 기반 이상값 탐지. IEEE 데이터 마이닝 국제 회의(ICDM) , 2020. |
[28] | Li, Z., Zhao, Y., Hu, X., Botta, N., Ionescu, C. 및 Chen, HG ECOD: 경험적 누적 분포 함수를 사용한 비지도 이상치 탐지. 지식 및 데이터 엔지니어링에 관한 IEEE 거래(TKDE) , 2022. |
[29] | Liu, FT, Ting, KM 및 Zhou, ZH, 2008년 12월. 고립된 숲. 데이터 마이닝에 관한 국제 회의 , pp. 413-422. IEEE. |
[30] | (1, 2) Liu, Y., Li, Z., Zhou, C., Jiang, Y., Sun, J., Wang, M. 및 He, X., 2019. 비지도 이상치 탐지를 위한 생성적 적대적 능동 학습 . 지식 및 데이터 엔지니어링에 관한 IEEE 거래 . |
[31] | Nguyen, MN 및 Vien, NA, 2019. 딥 러닝 및 랜덤 푸리에 기능을 갖춘 확장 가능하고 해석 가능한 단일 클래스 SVM입니다. 데이터베이스의 기계 학습 및 지식 발견: 유럽 컨퍼런스 , ECML PKDD, 2018. |
[32] | Pang, Guansong, Chunhua Shen 및 Anton Van Den Hengel. "편차 네트워크를 통한 심층적인 이상 탐지." KDD , pp. 353-362. 2019. |
[33] | Papadimitriou, S., Kitagawa, H., Gibbons, PB 및 Faloutsos, C., 2003년 3월. LOCI: 로컬 상관 적분을 사용하여 빠른 이상값 탐지. ICDE '03 , pp. 315-326. IEEE. |
[34] | (1, 2) Pevný, T., 2016. Loda: 경량 온라인 변칙 탐지기. 기계학습 , 102(2), pp.275-304. |
[35] | Perini, L., Vercruyssen, V., Davis, J. 예시 기반 예측에서 이상 탐지기의 신뢰도를 정량화합니다. 데이터베이스의 기계 학습 및 지식 발견에 관한 유럽 합동 컨퍼런스(ECML-PKDD) , 2020. |
[36] | Ramaswamy, S., Rastogi, R. 및 Shim, K., 2000, 5월. 대규모 데이터 세트에서 이상값을 마이닝하기 위한 효율적인 알고리즘입니다. ACM Sigmod 레코드 , 29(2), 427-438페이지. |
[37] | Rousseeuw, PJ 및 Driessen, KV, 1999. 최소 공분산 행렬식 추정량을 위한 빠른 알고리즘. 기술계량학 , 41(3), pp.212-223. |
[38] | Ruff, L., Vandermeulen, R., Goernitz, N., Deecke, L., Siddiqui, SA, Binder, A., Müller, E. 및 Kloft, M., 2018년 7월. 심층적인 단일 클래스 분류. 기계 학습에 관한 국제 회의 에서(pp. 4393-4402). PMLR. |
[39] | Schlegl, T., Seeböck, P., Waldstein, SM, Schmidt-Erfurth, U. 및 Langs, G., 2017, 6월. 마커 발견을 안내하는 생성적 적대 네트워크를 통한 비지도 이상 징후 탐지. 의료 영상의 정보 처리에 관한 국제 회의(pp. 146-157). 스프링거, 참. |
[40] | Scholkopf, B., Platt, JC, Shawe-Taylor, J., Smola, AJ 및 Williamson, RC, 2001. 고차원 분포 지원 추정. 신경 계산 , 13(7), pp.1443-1471. |
[41] | Shyu, ML, Chen, SC, Sarinnapakorn, K. 및 Chang, L., 2003. 주성분 분류기에 기반한 새로운 이상 탐지 방식. MIAMI UNIV CORAL GABLES FL 전기 및 컴퓨터 공학부 . |
[42] | Sugiyama, M. 및 Borgwardt, K., 2013. 샘플링을 통한 신속한 거리 기반 이상치 감지. 신경 정보 처리 시스템의 발전, 26. |
[43] | (1, 2) Tang, J., Chen, Z., Fu, AWC 및 Cheung, DW, 2002, 5월. 저밀도 패턴에 대한 이상값 감지의 효율성을 향상합니다. 지식 발견 및 데이터 마이닝에 관한 태평양 아시아 컨퍼런스 , pp. 535-548. 스프링어, 베를린, 하이델베르그. |
[44] | Wang, X., Du, Y., Lin, S., Cui, P., Shen, Y. 및 Yang, Y., 2019. adVAE: 이상 감지를 위한 가우스 이상 사전 지식을 갖춘 자기 적대적 변형 자동 인코더입니다. 지식 기반 시스템 . |
[45] | Xu, H., Pang, G., Wang, Y., Wang, Y., 2023. 이상 탐지를 위한 깊은 격리 숲. 지식 및 데이터 엔지니어링에 관한 IEEE 거래 . |
[46] | You, C., Robinson, DP 및 Vidal, R., 2017. 부분 공간 합집합에서 이상치 감지 기반으로 입증 가능한 자기 표현. 컴퓨터 비전 및 패턴 인식에 관한 IEEE 회의 진행 중. |
[47] | Zenati, H., Romain, M., Foo, CS, Lecouat, B. 및 Chandrasekhar, V., 2018년 11월. 적대적으로 학습된 이상 탐지. 2018년 IEEE 데이터 마이닝 국제 컨퍼런스(ICDM)(pp. 727-736). IEEE. |
[48] | (1, 2) Zhao, Y. 및 Hryniewicki, MK XGBOD: 비지도 표현 학습을 통해 지도 이상값 감지 개선. 신경망에 관한 IEEE 국제 합동 컨퍼런스 , 2018. |
[49] | (1, 2) Zhao, Y., Nasrullah, Z., Hryniewicki, MK 및 Li, Z., 2019, 5월. LSCP: 병렬 이상값 앙상블의 로컬 선택적 조합. 2019 SIAM 데이터 마이닝 국제 회의(SDM) 진행 중 , pp. 585-593. 산업 및 응용 수학 협회. |
[50] | (1, 2, 3, 4) Zhao, Y., Hu, X., Cheng, C., Wang, C., Wan, C., Wang, W., Yang, J., Bai, H., Li , Z., Xiao, C., Wang, Y., Qiao, Z., Sun, J. 및 Akoglu, L. (2021). SUOD: 대규모 비지도 이종 이상치 탐지 가속화. 기계 학습 및 시스템(MLSys) 컨퍼런스 . |