Deteksi Pencilan Python (PyOD)
Penerapan & Dokumentasi & Statistik & Lisensi
Baca Saya Dulu
Selamat datang di PyOD, pustaka Python yang komprehensif namun mudah digunakan untuk mendeteksi anomali dalam data multivarian. Baik Anda menangani proyek skala kecil atau kumpulan data besar, PyOD menawarkan serangkaian algoritme untuk memenuhi kebutuhan Anda.
- Untuk deteksi outlier deret waktu , gunakan TODS.
- Untuk deteksi outlier grafik , silakan gunakan PyGOD.
- Perbandingan Kinerja & Kumpulan Data : Kami memiliki makalah benchmark deteksi anomali komprehensif setebal 45 halaman. ADBench yang sepenuhnya bersumber terbuka membandingkan 30 algoritme deteksi anomali pada 57 kumpulan data benchmark.
- Pelajari lebih lanjut tentang deteksi anomali di Sumber Daya Deteksi Anomali
- PyOD pada Sistem Terdistribusi : Anda juga dapat menjalankan PyOD pada databricks.
Tentang PyOD
PyOD, didirikan pada tahun 2017, telah menjadi pustaka Python yang dapat digunakan untuk mendeteksi objek anomali/terluar dalam data multivariat. Bidang yang menarik namun menantang ini biasa disebut dengan Deteksi Outlier atau Deteksi Anomali.
PyOD mencakup lebih dari 50 algoritme deteksi, mulai dari LOF klasik (SIGMOD 2000) hingga ECOD dan DIF mutakhir (TKDE 2022 dan 2023). Sejak tahun 2017, PyOD telah berhasil digunakan di berbagai proyek penelitian akademis dan produk komersial dengan lebih dari 22 juta unduhan. Hal ini juga diakui dengan baik oleh komunitas pembelajaran mesin dengan berbagai postingan/tutorial khusus, termasuk Analytics Vidhya, KDnuggets, dan Towards Data Science.
PyOD ditampilkan untuk :
- Antarmuka Terpadu dan Ramah Pengguna di berbagai algoritma.
- Beragam Model , mulai dari teknik klasik hingga metode pembelajaran mendalam terbaru di PyTorch .
- Kinerja & Efisiensi Tinggi , memanfaatkan numba dan joblib untuk kompilasi JIT dan pemrosesan paralel.
- Pelatihan & Prediksi Cepat , dicapai melalui kerangka SUOD [50].
Deteksi Outlier dengan 5 Baris Kode :
# Example: Training an ECOD detector
from pyod . models . ecod import ECOD
clf = ECOD ()
clf . fit ( X_train )
y_train_scores = clf . decision_scores_ # Outlier scores for training data
y_test_scores = clf . decision_function ( X_test ) # Outlier scores for test data
Memilih Algoritma yang Tepat: Tidak yakin harus mulai dari mana? Pertimbangkan opsi yang kuat dan dapat ditafsirkan berikut ini:
- ECOD: Contoh penggunaan ECOD untuk deteksi outlier
- Isolation Forest: Contoh penggunaan Isolation Forest untuk deteksi outlier
Alternatifnya, jelajahi MetaOD untuk pendekatan berbasis data.
Mengutip PyOD :
Makalah PyOD diterbitkan di Journal of Machine Learning Research (JMLR) (track MLOSS). Jika Anda menggunakan PyOD dalam publikasi ilmiah, kami sangat menghargai kutipan pada makalah berikut:
@artikel{zhao2019pyod,
penulis = {Zhao, Yue dan Nasrullah, Zain dan Li, Zheng},
title = {PyOD: Kotak Alat Python untuk Deteksi Pencilan yang Dapat Diskalakan},
jurnal = {Jurnal Penelitian Pembelajaran Mesin},
tahun = {2019},
volume = {20},
angka = {96},
halaman = {1-7},
url = {http://jmlr.org/papers/v20/19-011.html}
}
atau:
Zhao, Y., Nasrullah, Z. dan Li, Z., 2019. PyOD: Kotak Alat Python untuk Deteksi Pencilan yang Dapat Diskalakan. Jurnal penelitian pembelajaran mesin (JMLR), 20(96), hal.1-7.
Untuk perspektif yang lebih luas mengenai deteksi anomali, lihat makalah NeurIPS kami ADBench: Makalah Tolok Ukur Deteksi Anomali dan ADGym: Pilihan Desain untuk Deteksi Anomali Mendalam:
@artikel{han2022adbench,
title={Adbench: Tolok ukur deteksi anomali},
author={Han, Songqiao dan Hu, Xiyang dan Huang, Hailiang dan Jiang, Minqi dan Zhao, Yue},
journal={Kemajuan dalam Sistem Pemrosesan Informasi Neural},
volume={35},
halaman={32142--32159},
tahun={2022}
}
@artikel{jiang2023adgym,
title={ADGym: Pilihan Desain untuk Deteksi Anomali Mendalam},
author={Jiang, Minqi dan Hou, Chaochuan dan Zheng, Ao dan Han, Songqiao dan Huang, Hailiang dan Wen, Qingsong dan Hu, Xiyang dan Zhao, Yue},
journal={Kemajuan dalam Sistem Pemrosesan Informasi Neural},
volume={36},
tahun={2023}
}
Daftar isi :
- Instalasi
- Lembar Cheat & Referensi API
- Tolok Ukur dan Kumpulan Data ADBench
- Simpan & Muat Model
- Kereta Cepat dengan SUOD
- Ambang Batas Skor Outlier
- Algoritma yang Diimplementasikan
- Mulai Cepat untuk Deteksi Pencilan
- Bagaimana Berkontribusi
- Kriteria Inklusi
Instalasi
PyOD dirancang untuk kemudahan instalasi menggunakan pip atau conda . Kami merekomendasikan penggunaan PyOD versi terbaru karena seringnya pembaruan dan penyempurnaan:
pip install pyod # normal install
pip install --upgrade pyod # or update if needed
conda install -c conda-forge pyod
Alternatifnya, Anda dapat mengkloning dan menjalankan file setup.py:
git clone https://github.com/yzhao062/pyod.git
cd pyod
pip install .
Ketergantungan yang Diperlukan :
- Python 3.8 atau lebih tinggi
- joblib
- matplotlib
- numpy>=1,19
- mati rasa>=0,51
- scipy>=1.5.1
- scikit_learn>=0.22.0
Dependensi Opsional (lihat detail di bawah) :
- kombo (opsional, diperlukan untuk models/combination.py dan FeatureBagging)
- pytorch (opsional, diperlukan untuk AutoEncoder, dan model pembelajaran mendalam lainnya)
- suod (opsional, diperlukan untuk menjalankan model SUOD)
- xgboost (opsional, diperlukan untuk XGBOD)
- pythresh (opsional, diperlukan untuk ambang batas)
Lembar Cheat & Referensi API
Referensi API lengkap tersedia di Dokumentasi PyOD. Di bawah ini adalah contekan singkat untuk semua detektor:
- fit(X) : Cocok dengan detektor. Parameter y diabaikan dalam metode tanpa pengawasan.
- Decision_function(X) : Memprediksi skor anomali mentah untuk X menggunakan detektor yang dipasang.
- prediksi(X) : Tentukan apakah suatu sampel merupakan outlier atau bukan sebagai label biner menggunakan detektor yang dilengkapi.
- prediksi_proba(X) : Perkirakan probabilitas suatu sampel menjadi outlier menggunakan detektor yang dipasang.
- prediksi_keyakinan(X) : Menilai keyakinan model berdasarkan per sampel (berlaku dalam prediksi dan prediksi_proba) [35].
Atribut Utama dari model yang dipasang :
- Decision_scores_ : Skor outlier dari data pelatihan. Skor yang lebih tinggi biasanya menunjukkan perilaku yang lebih tidak normal. Pencilan biasanya memiliki skor lebih tinggi.
- labels_ : Label biner dari data pelatihan, dengan 0 menunjukkan inlier dan 1 menunjukkan outlier/anomali.
Tolok Ukur dan Kumpulan Data ADBench
Kami baru saja merilis ADBench setebal 45 halaman: Tolok Ukur Deteksi Anomali [15]. ADBench yang sepenuhnya bersumber terbuka membandingkan 30 algoritme deteksi anomali pada 57 kumpulan data benchmark.
Organisasi ADBench disediakan di bawah ini:
Untuk visualisasi yang lebih sederhana, kami melakukan perbandingan model yang dipilih melalui bandingkan_all_models.py.
Simpan & Muat Model
PyOD mengambil pendekatan sklearn serupa mengenai persistensi model. Lihat model persistensi untuk klarifikasi.
Singkatnya, kami menyarankan untuk menggunakan joblib atau acar untuk menyimpan dan memuat model PyOD. Lihat "examples/save_load_model_example.py" sebagai contoh. Singkatnya, caranya sederhana seperti di bawah ini:
from joblib import dump , load
# save the model
dump ( clf , 'clf.joblib' )
# load the model
clf = load ( 'clf.joblib' )
Diketahui bahwa terdapat tantangan dalam menyelamatkan model jaringan saraf. Periksa #328 dan #88 untuk solusi sementara.
Kereta Cepat dengan SUOD
Pelatihan dan prediksi cepat : dimungkinkan untuk melatih dan memprediksi dengan sejumlah besar model deteksi di PyOD dengan memanfaatkan kerangka SUOD [50]. Lihat Kertas SUOD dan contoh SUOD.
from pyod . models . suod import SUOD
# initialized a group of outlier detectors for acceleration
detector_list = [ LOF ( n_neighbors = 15 ), LOF ( n_neighbors = 20 ),
LOF ( n_neighbors = 25 ), LOF ( n_neighbors = 35 ),
COPOD (), IForest ( n_estimators = 100 ),
IForest ( n_estimators = 200 )]
# decide the number of parallel process, and the combination method
# then clf can be used as any outlier detection model
clf = SUOD ( base_estimators = detector_list , n_jobs = 2 , combination = 'average' ,
verbose = False )
Ambang Batas Skor Outlier
Pendekatan yang lebih berbasis data dapat diambil ketika menetapkan tingkat kontaminasi. Dengan menggunakan metode ambang batas, menebak nilai arbitrer dapat diganti dengan teknik yang telah teruji untuk memisahkan inlier dan outlier. Lihat PyThresh untuk melihat lebih dalam tentang ambang batas.
from pyod . models . knn import KNN
from pyod . models . thresholds import FILTER
# Set the outlier detection and thresholding methods
clf = KNN ( contamination = FILTER ())
Lihat metode ambang batas yang didukung dalam ambang batas.
Algoritma yang Diimplementasikan
Toolkit PyOD terdiri dari empat kelompok fungsi utama:
(i) Algoritma Deteksi Individu :
Jenis | Singkatan | Algoritma | Tahun | Ref |
---|
Probabilistik | ECOD | Deteksi Outlier Tanpa Pengawasan Menggunakan Fungsi Distribusi Kumulatif Empiris | 2022 | [28] |
Probabilistik | DI ATAS | Deteksi Pencilan Berbasis Sudut | 2008 | [22] |
Probabilistik | CepatABOD | Deteksi Pencilan Berbasis Sudut Cepat menggunakan perkiraan | 2008 | [22] |
Probabilistik | COPOD | COPOD: Deteksi Pencilan Berbasis Kopula | 2020 | [27] |
Probabilistik | GILA | Deviasi Absolut Median (MAD) | 1993 | [19] |
Probabilistik | SOS | Seleksi Outlier Stokastik | 2012 | [20] |
Probabilistik | QMCD | Deteksi outlier Perbedaan Quasi-Monte Carlo | 2001 | [11] |
Probabilistik | KDE | Deteksi Outlier dengan Fungsi Kernel Density | 2007 | [24] |
Probabilistik | Contoh | Deteksi outlier berbasis jarak cepat melalui pengambilan sampel | 2013 | [42] |
Probabilistik | GM | Pemodelan Campuran Probabilistik untuk Analisis Outlier | | [1] [Bab.2] |
Model Linier | PCA | Analisis Komponen Utama (jumlah jarak proyeksi tertimbang ke hyperplane vektor eigen) | 2003 | [41] |
Model Linier | KPCA | Analisis Komponen Utama Kernel | 2007 | [18] |
Model Linier | MCD | Penentu Kovariansi Minimum (gunakan jarak mahalanobis sebagai skor outlier) | 1999 | [16] [37] |
Model Linier | CD | Gunakan jarak Cook untuk mendeteksi outlier | 1977 | [10] |
Model Linier | OCSVM | Mesin Vektor Dukungan Satu Kelas | 2001 | [40] |
Model Linier | LMDD | Deteksi Pencilan Berbasis Deviasi (LMDD) | 1996 | [6] |
Berbasis Kedekatan | LOF | Faktor Pencilan Lokal | 2000 | [8] |
Berbasis Kedekatan | COF | Faktor Pencilan Berbasis Konektivitas | 2002 | [43] |
Berbasis Kedekatan | (Tambahan) COF | Faktor Outlier Berbasis Konektivitas yang Efisien Memori (lebih lambat namun mengurangi kompleksitas penyimpanan) | 2002 | [43] |
Berbasis Kedekatan | CBLOF | Faktor Pencilan Lokal Berbasis Clustering | 2003 | [17] |
Berbasis Kedekatan | LOCI | LOCI: Deteksi outlier cepat menggunakan integral korelasi lokal | 2003 | [33] |
Berbasis Kedekatan | HBOS | Skor Outlier berbasis Histogram | 2012 | [12] |
Berbasis Kedekatan | kNN | k Tetangga Terdekat (gunakan jarak ke tetangga terdekat ke-k sebagai skor outlier) | 2000 | [36] |
Berbasis Kedekatan | Rata-rataKNN | Rata-rata kNN (gunakan jarak rata-rata ke k tetangga terdekat sebagai skor outlier) | 2002 | [5] |
Berbasis Kedekatan | MedKNN | Median kNN (gunakan median jarak ke k tetangga terdekat sebagai skor outlier) | 2002 | [5] |
Berbasis Kedekatan | MERUMPUT | Deteksi Outlier Subruang | 2009 | [23] |
Berbasis Kedekatan | BATANG | Deteksi Pencilan Berbasis Rotasi | 2020 | [4] |
Ansambel Pencilan | IHutan | Hutan Isolasi | 2008 | [29] |
Ansambel Pencilan | DALAM | Deteksi Anomali Berbasis Isolasi Menggunakan Ensemble Tetangga Terdekat | 2018 | [7] |
Ansambel Pencilan | DIF | Hutan Isolasi Dalam untuk Deteksi Anomali | 2023 | [45] |
Ansambel Pencilan | FB | Fitur Mengantongi | 2005 | [25] |
Ansambel Pencilan | LSCP | LSCP: Kombinasi Selektif Lokal dari Paralel Outlier Ensemble | 2019 | [49] |
Ansambel Pencilan | XGBOD | Deteksi Outlier Berbasis Peningkatan Ekstrim (Diawasi) | 2018 | [48] |
Ansambel Pencilan | LODA | Detektor Anomali On-line Ringan | 2016 | [34] |
Ansambel Pencilan | SUOD | SUOD: Mempercepat Deteksi Outlier Heterogen Tanpa Pengawasan Skala Besar (Akselerasi) | 2021 | [50] |
Jaringan Syaraf | Pembuat Enkode Otomatis | AutoEncoder yang terhubung sepenuhnya (gunakan kesalahan rekonstruksi sebagai skor outlier) | | [1] [Bab.3] |
Jaringan Syaraf | VAE | Variational AutoEncoder (gunakan kesalahan rekonstruksi sebagai skor outlier) | 2013 | [21] |
Jaringan Syaraf | Beta-VAE | Variational AutoEncoder (semua istilah kerugian yang disesuaikan dengan memvariasikan gamma dan kapasitas) | 2018 | [9] |
Jaringan Syaraf | JADI_GAAL | Pembelajaran Aktif Adversarial Generatif Tujuan Tunggal | 2019 | [30] |
Jaringan Syaraf | MO_GAAL | Pembelajaran Aktif Adversarial Generatif Multi-Tujuan | 2019 | [30] |
Jaringan Syaraf | DeepSVDD | Klasifikasi Satu Kelas Mendalam | 2018 | [38] |
Jaringan Syaraf | AnoGAN | Deteksi Anomali dengan Jaringan Adversarial Generatif | 2017 | [39] |
Jaringan Syaraf | ALAD | Deteksi anomali yang dipelajari secara musuh | 2018 | [47] |
Jaringan Syaraf | AE1SVM | Mesin Vektor Dukungan Satu Kelas berbasis autoencoder | 2019 | [31] |
Jaringan Syaraf | DevNet | Deteksi Anomali Mendalam dengan Jaringan Deviasi | 2019 | [32] |
Berbasis grafik | R-Grafik | Deteksi outlier dengan grafik-R | 2017 | [46] |
Berbasis grafik | BULAN | LUNAR: Menyatukan Metode Deteksi Outlier Lokal melalui Graph Neural Networks | 2022 | [13] |
(ii) Kerangka Kerja Kombinasi Ansambel Outlier & Detektor Outlier :
Jenis | Singkatan | Algoritma | Tahun | Ref |
---|
Ansambel Pencilan | FB | Fitur Mengantongi | 2005 | [25] |
Ansambel Pencilan | LSCP | LSCP: Kombinasi Selektif Lokal dari Ansambel Pencilan Paralel | 2019 | [49] |
Ansambel Pencilan | XGBOD | Deteksi Outlier Berbasis Peningkatan Ekstrim (Diawasi) | 2018 | [48] |
Ansambel Pencilan | LODA | Detektor Anomali On-line Ringan | 2016 | [34] |
Ansambel Pencilan | SUOD | SUOD: Mempercepat Deteksi Outlier Heterogen Tanpa Pengawasan Skala Besar (Akselerasi) | 2021 | [50] |
Ansambel Pencilan | DALAM | Deteksi Anomali Berbasis Isolasi Menggunakan Ensemble Tetangga Terdekat | 2018 | [7] |
Kombinasi | Rata-rata | Kombinasi sederhana dengan merata-ratakan skor | 2015 | [2] |
Kombinasi | Rata-rata Tertimbang | Kombinasi sederhana dengan merata-ratakan skor dengan bobot detektor | 2015 | [2] |
Kombinasi | Maksimalisasi | Kombinasi sederhana dengan mengambil skor maksimal | 2015 | [2] |
Kombinasi | AOM | Rata-rata Maksimum | 2015 | [2] |
Kombinasi | MOA | Maksimalisasi Rata-rata | 2015 | [2] |
Kombinasi | median | Kombinasi sederhana dengan mengambil median skor | 2015 | [2] |
Kombinasi | Suara terbanyak | Kombinasi sederhana dengan mengambil suara terbanyak dari label (dapat menggunakan bobot) | 2015 | [2] |
(iii) Fungsi Utilitas :
Jenis | Nama | Fungsi | Dokumentasi |
---|
Data | menghasilkan_data | Pembuatan data yang disintesis; data normal dihasilkan oleh Gaussian multivariat dan outlier dihasilkan oleh distribusi seragam | menghasilkan_data |
Data | menghasilkan_data_cluster | Pembuatan data yang disintesis dalam cluster; pola data yang lebih kompleks dapat dibuat dengan banyak cluster | menghasilkan_data_cluster |
Statistik | wpearsonr | Hitung korelasi Pearson tertimbang dari dua sampel | wpearsonr |
Kegunaan | dapatkan_label_n | Ubah skor outlier mentah menjadi label biner dengan menetapkan 1 ke n skor outlier teratas | dapatkan_label_n |
Kegunaan | presisi_n_skor | menghitung presisi @ peringkat n | presisi_n_skor |
Mulai Cepat untuk Deteksi Pencilan
PyOD telah diakui dengan baik oleh komunitas pembelajaran mesin dengan beberapa postingan dan tutorial unggulan.
Analytics Vidhya : Tutorial Luar Biasa untuk Mempelajari Deteksi Pencilan dengan Python menggunakan Perpustakaan PyOD
KDnuggets : Visualisasi Intuitif Metode Deteksi Outlier, Gambaran Umum Metode Deteksi Outlier dari PyOD
Menuju Ilmu Data : Deteksi Anomali untuk Dummies
"examples/knn_example.py" mendemonstrasikan API dasar penggunaan detektor kNN. Perlu dicatat bahwa API di semua algoritme lainnya konsisten/serupa .
Petunjuk lebih rinci untuk menjalankan contoh dapat ditemukan di direktori contoh.
Inisialisasi detektor kNN, sesuaikan model, dan buat prediksi.
from pyod . models . knn import KNN # kNN detector
# train kNN detector
clf_name = 'KNN'
clf = KNN ()
clf . fit ( X_train )
# get the prediction label and outlier scores of the training data
y_train_pred = clf . labels_ # binary labels (0: inliers, 1: outliers)
y_train_scores = clf . decision_scores_ # raw outlier scores
# get the prediction on the test data
y_test_pred = clf . predict ( X_test ) # outlier labels (0 or 1)
y_test_scores = clf . decision_function ( X_test ) # outlier scores
# it is possible to get the prediction confidence as well
y_test_pred , y_test_pred_confidence = clf . predict ( X_test , return_confidence = True ) # outlier labels (0 or 1) and confidence in the range of [0,1]
Evaluasi prediksi berdasarkan ROC dan Precision @ Rank n (p@n).
from pyod . utils . data import evaluate_print
# evaluate and print the results
print ( " n On Training Data:" )
evaluate_print ( clf_name , y_train , y_train_scores )
print ( " n On Test Data:" )
evaluate_print ( clf_name , y_test , y_test_scores )
Lihat contoh keluaran & visualisasi.
On Training Data :
KNN ROC : 1.0 , precision @ rank n : 1.0
On Test Data :
KNN ROC : 0.9989 , precision @ rank n : 0.9
visualize ( clf_name , X_train , y_train , X_test , y_test , y_train_pred ,
y_test_pred , show_figure = True , save_figure = False )
Visualisasi (knn_figure):
Referensi
[1] | (1, 2) Aggarwal, CC, 2015. Analisis outlier. Dalam Data mining (hlm. 237-263). Pegas, Cham. |
[2] | (1, 2, 3, 4, 5, 6, 7) Aggarwal, CC dan Sathe, S., 2015. Landasan teori dan algoritma untuk ansambel outlier. Buletin Eksplorasi ACM SIGKDD , 17(1), hal.24-47. |
[3] | Aggarwal, CC dan Sathe, S., 2017. Ansambel outlier: Sebuah pengantar. Peloncat. |
[4] | Almardeny, Y., Boujnah, N. dan Cleary, F., 2020. Metode Deteksi Pencilan Baru untuk Data Multivariat. Transaksi IEEE tentang Pengetahuan dan Rekayasa Data . |
[5] | (1, 2) Angiulli, F. dan Pizzuti, C., 2002, Agustus. Deteksi outlier cepat di ruang berdimensi tinggi. Dalam Konferensi Eropa tentang Prinsip Penambangan Data dan Penemuan Pengetahuan hal.15-27. |
[6] | Arning, A., Agrawal, R. dan Raghavan, P., 1996, Agustus. Metode Linier untuk Deteksi Penyimpangan di Database Besar. Dalam KDD (Vol. 1141, No. 50, hlm. 972-981). |
[7] | (1, 2) Bandaragoda, TR, Ting, KM, Albrecht, D., Liu, FT, Zhu, Y., dan Wells, JR, 2018, Deteksi anomali berbasis isolasi menggunakan ansambel tetangga terdekat. Kecerdasan Komputasi , 34(4), hlm.968-998. |
[8] | Breunig, MM, Kriegel, HP, Ng, RT dan Sander, J., 2000, Mei. LOF: mengidentifikasi outlier lokal berbasis kepadatan. Catatan ACM Sigmod , 29(2), hlm.93-104. |
[9] | Burgess, Christopher P., dkk. "Memahami penguraian dalam beta-VAE." arXiv pracetak arXiv:1804.03599 (2018). |
[10] | Cook, RD, 1977. Deteksi observasi berpengaruh dalam regresi linier. Teknometri, 19(1), hal.15-18. |
[11] | Fang, KT dan Ma, CX, 2001. Perbedaan L2 dari pengambilan sampel acak, hypercube Latin, dan desain seragam. Jurnal kompleksitas, 17(4), hal.608-624. |
[12] | Goldstein, M. dan Dengel, A., 2012. Skor outlier berbasis histogram (hbos): Algoritme deteksi anomali cepat tanpa pengawasan. Dalam KI-2012: Poster dan Demo Lagu , hal.59-63. |
[13] | Goodge, A., Hooi, B., Ng, SK dan Ng, WS, 2022, Juni. Lunar: Menyatukan metode deteksi outlier lokal melalui jaringan saraf grafik. Dalam Prosiding Konferensi AAAI tentang Kecerdasan Buatan. |
[14] | Gopalan, P., Sharan, V. dan Wieder, U., 2019. PIDForest: Deteksi Anomali melalui Identifikasi Parsial. Dalam Kemajuan Sistem Pemrosesan Informasi Neural, hal.15783-15793. |
[15] | Han, S., Hu, X., Huang, H., Jiang, M. dan Zhao, Y., 2022. ADBench: Tolok Ukur Deteksi Anomali. arXiv pracetak arXiv:2206.09426. |
[16] | Hardin, J. dan Rocke, DM, 2004. Deteksi outlier dalam pengaturan beberapa cluster menggunakan estimator determinan kovarians minimum. Statistik Komputasi & Analisis Data , 44(4), hal.625-638. |
[17] | He, Z., Xu, X. dan Deng, S., 2003. Menemukan outlier lokal berbasis cluster. Surat Pengenalan Pola , 24(9-10), hal.1641-1650. |
[18] | Hoffmann, H., 2007. Kernel PCA untuk deteksi kebaruan. Pengenalan pola, 40(3), hal.863-874. |
[19] | Iglewicz, B. dan Hoaglin, DC, 1993. Cara mendeteksi dan menangani outlier (Vol. 16). Asq Tekan. |
[20] | Janssens, JHM, Huszár, F., Postma, EO dan van den Herik, HJ, 2012. Seleksi outlier stokastik. Laporan teknis TiCC TR 2012-001, Universitas Tilburg, Pusat Kognisi dan Komunikasi Tilburg, Tilburg, Belanda. |
[21] | Kingma, DP dan Welling, M., 2013. Bayes variasi pengkodean otomatis. arXiv pracetak arXiv:1312.6114. |
[22] | (1, 2) Kriegel, HP dan Zimek, A., 2008, Agustus. Deteksi outlier berbasis sudut pada data berdimensi tinggi. Dalam KDD '08 , hal.444-452. ACM. |
[23] | Kriegel, HP, Kröger, P., Schubert, E. dan Zimek, A., 2009, April. Deteksi outlier pada subruang sumbu-paralel dari data berdimensi tinggi. Dalam Konferensi Asia Pasifik tentang Penemuan Pengetahuan dan Penambangan Data , hal.831-838. Springer, Berlin, Heidelberg. |
[24] | Latecki, LJ, Lazarevic, A. dan Pokrajac, D., 2007, Juli. Deteksi outlier dengan fungsi kepadatan kernel. Dalam Lokakarya Internasional tentang Pembelajaran Mesin dan Penambangan Data dalam Pengenalan Pola (hlm. 61-75). Springer, Berlin, Heidelberg. |
[25] | (1, 2) Lazarevic, A. dan Kumar, V., 2005, Agustus. Fitur mengantongi untuk deteksi outlier. Di KDD '05 . 2005. |
[26] | Li, D., Chen, D., Jin, B., Shi, L., Goh, J. dan Ng, SK, 2019, September. MAD-GAN: Deteksi anomali multivariat untuk data deret waktu dengan jaringan permusuhan generatif. Dalam Konferensi Internasional tentang Jaringan Syaraf Tiruan (hlm. 703-716). Pegas, Cham. |
[27] | Li, Z., Zhao, Y., Botta, N., Ionescu, C. dan Hu, X. COPOD: Deteksi Pencilan Berbasis Kopula. Konferensi Internasional IEEE tentang Penambangan Data (ICDM) , 2020. |
[28] | Li, Z., Zhao, Y., Hu, X., Botta, N., Ionescu, C. dan Chen, HG ECOD: Deteksi Outlier Tanpa Pengawasan Menggunakan Fungsi Distribusi Kumulatif Empiris. Transaksi IEEE tentang Pengetahuan dan Rekayasa Data (TKDE) , 2022. |
[29] | Liu, FT, Ting, KM dan Zhou, ZH, 2008, Desember. Hutan isolasi. Dalam Konferensi Internasional tentang Data Mining , hal.413-422. IEEE. |
[30] | (1, 2) Liu, Y., Li, Z., Zhou, C., Jiang, Y., Sun, J., Wang, M. dan He, X., 2019. Pembelajaran aktif permusuhan generatif untuk deteksi outlier tanpa pengawasan . Transaksi IEEE tentang Pengetahuan dan Rekayasa Data . |
[31] | Nguyen, MN dan Vien, NA, 2019. SVM satu kelas yang dapat diskalakan dan ditafsirkan dengan pembelajaran mendalam dan fitur fourier acak. Dalam Pembelajaran Mesin dan Penemuan Pengetahuan dalam Basis Data: Konferensi Eropa , ECML PKDD, 2018. |
[32] | Pang, Guansong, Chunhua Shen, dan Anton Van Den Hengel. "Deteksi anomali mendalam dengan jaringan deviasi." Dalam KDD , hal.353-362. 2019. |
[33] | Papadimitriou, S., Kitagawa, H., Gibbons, PB dan Faloutsos, C., 2003, Maret. LOCI: Deteksi outlier cepat menggunakan integral korelasi lokal. Dalam ICDE '03 , hal.315-326. IEEE. |
[34] | (1, 2) Pevný, T., 2016. Loda: Detektor anomali online yang ringan. Pembelajaran Mesin , 102(2), hal.275-304. |
[35] | Perini, L., Vercruyssen, V., Davis, J. Mengukur kepercayaan detektor anomali dalam prediksi berdasarkan contoh. Dalam Konferensi Bersama Eropa tentang Pembelajaran Mesin dan Penemuan Pengetahuan dalam Basis Data (ECML-PKDD) , 2020. |
[36] | Ramaswamy, S., Rastogi, R. dan Shim, K., 2000, Mei. Algoritma yang efisien untuk menambang outlier dari kumpulan data besar. Catatan ACM Sigmod , 29(2), hlm.427-438. |
[37] | Rousseeuw, PJ dan Driessen, KV, 1999. Algoritma cepat untuk penduga determinan kovarians minimum. Teknometri , 41(3), hal.212-223. |
[38] | Ruff, L., Vandermeulen, R., Goernitz, N., Deecke, L., Siddiqui, SA, Binder, A., Müller, E. dan Kloft, M., 2018, Juli. Klasifikasi satu kelas yang mendalam. Dalam konferensi Internasional tentang pembelajaran mesin (hlm. 4393-4402). PMLR. |
[39] | Schlegl, T., Seeböck, P., Waldstein, SM, Schmidt-Erfurth, U. dan Langs, G., 2017, Juni. Deteksi anomali tanpa pengawasan dengan jaringan permusuhan generatif untuk memandu penemuan penanda. Dalam konferensi Internasional tentang pemrosesan informasi dalam pencitraan medis (hlm. 146-157). Pegas, Cham. |
[40] | Scholkopf, B., Platt, JC, Shawe-Taylor, J., Smola, AJ dan Williamson, RC, 2001. Memperkirakan dukungan distribusi dimensi tinggi. Komputasi Neural , 13(7), hal.1443-1471. |
[41] | Shyu, ML, Chen, SC, Sarinnapakorn, K. dan Chang, L., 2003. Skema deteksi anomali baru berdasarkan pengklasifikasi komponen utama. MIAMI UNIV CORAL GABLES FL DEPT TEKNIK LISTRIK DAN KOMPUTER . |
[42] | Sugiyama, M. dan Borgwardt, K., 2013. Deteksi outlier berbasis jarak cepat melalui pengambilan sampel. Kemajuan dalam sistem pemrosesan informasi saraf, 26. |
[43] | (1, 2) Tang, J., Chen, Z., Fu, AWC dan Cheung, DW, 2002, Mei. Meningkatkan efektivitas deteksi outlier untuk pola kepadatan rendah. Dalam Konferensi Asia Pasifik tentang Penemuan Pengetahuan dan Penambangan Data , hal.535-548. Springer, Berlin, Heidelberg. |
[44] | Wang, X., Du, Y., Lin, S., Cui, P., Shen, Y. dan Yang, Y., 2019. adVAE: Autoencoder variasional self-adversarial dengan pengetahuan sebelumnya tentang anomali Gaussian untuk deteksi anomali. Sistem Berbasis Pengetahuan . |
[45] | Xu, H., Pang, G., Wang, Y., Wang, Y., 2023. Hutan isolasi dalam untuk deteksi anomali. Transaksi IEEE tentang Pengetahuan dan Rekayasa Data . |
[46] | You, C., Robinson, DP dan Vidal, R., 2017. Deteksi outlier berbasis representasi diri yang dapat dibuktikan dalam gabungan subruang. Dalam Prosiding konferensi IEEE tentang visi komputer dan pengenalan pola. |
[47] | Zenati, H., Romain, M., Foo, CS, Lecouat, B. dan Chandrasekhar, V., 2018, November. Deteksi anomali yang dipelajari secara musuh. Pada konferensi Internasional IEEE tentang penambangan data (ICDM) 2018 (hlm. 727-736). IEEE. |
[48] | (1, 2) Zhao, Y. dan Hryniewicki, MK XGBOD: Meningkatkan Deteksi Pencilan yang Diawasi dengan Pembelajaran Representasi Tanpa Pengawasan. Konferensi Gabungan Internasional IEEE tentang Jaringan Syaraf Tiruan , 2018. |
[49] | (1, 2) Zhao, Y., Nasrullah, Z., Hryniewicki, MK dan Li, Z., 2019, Mei. LSCP: Kombinasi selektif lokal dalam ansambel outlier paralel. Dalam Prosiding Konferensi Internasional SIAM tentang Data Mining (SDM) 2019 , hal.585-593. Masyarakat Matematika Industri dan Terapan. |
[50] | (1, 2, 3, 4) Zhao, Y., Hu, X., Cheng, C., Wang, C., Wan, C., Wang, W., Yang, J., Bai, H., Li , Z., Xiao, C., Wang, Y., Qiao, Z., Sun, J. dan Akoglu, L. (2021). SUOD: Mempercepat Deteksi Pencilan Heterogen Tanpa Pengawasan Berskala Besar. Konferensi Pembelajaran Mesin dan Sistem (MLSys) . |