اكتشاف بايثون الخارجي (PyOD)
النشر والتوثيق والإحصائيات والترخيص
اقرأني أولاً
مرحبًا بك في PyOD، مكتبة Python الشاملة وسهلة الاستخدام لاكتشاف الحالات الشاذة في البيانات متعددة المتغيرات. سواء كنت تتعامل مع مشروع صغير أو مجموعات بيانات كبيرة، يقدم PyOD مجموعة من الخوارزميات التي تناسب احتياجاتك.
- للكشف عن السلاسل الزمنية الخارجية ، يرجى استخدام TODS.
- للكشف عن الرسم البياني ، يرجى استخدام PyGOD.
- مقارنة الأداء ومجموعات البيانات : لدينا ورقة مرجعية شاملة مكونة من 45 صفحة للكشف عن الحالات الشاذة. يقوم ADBench مفتوح المصدر بالكامل بمقارنة 30 خوارزمية للكشف عن الحالات الشاذة في 57 مجموعة بيانات مرجعية.
- تعرف على المزيد حول اكتشاف الحالات الشاذة في موارد اكتشاف الحالات الشاذة
- PyOD على الأنظمة الموزعة : يمكنك أيضًا تشغيل PyOD على قوالب البيانات.
حول بايود
أصبحت PyOD، التي تم إنشاؤها في عام 2017، بمثابة مكتبة Python للكشف عن الكائنات الشاذة/البعيدة في البيانات متعددة المتغيرات. يُشار إلى هذا المجال المثير والصعب عادةً باسم الكشف عن الحالات الشاذة أو اكتشاف الحالات الشاذة.
يتضمن PyOD أكثر من 50 خوارزمية كشف، بدءًا من LOF الكلاسيكي (SIGMOD 2000) وحتى ECOD وDIF المتطورين (TKDE 2022 و2023). منذ عام 2017، تم استخدام PyOD بنجاح في العديد من مشاريع البحث الأكاديمي والمنتجات التجارية مع أكثر من 22 مليون عملية تنزيل. كما أنها معترف بها جيدًا من قبل مجتمع التعلم الآلي من خلال العديد من المنشورات/البرامج التعليمية المخصصة، بما في ذلك Analytics Vidhya وKDnuggets وTowards Data Science.
يتميز PyOD بـ :
- واجهة موحدة وسهلة الاستخدام عبر خوارزميات مختلفة.
- مجموعة واسعة من النماذج ، بدءًا من التقنيات الكلاسيكية وحتى أحدث أساليب التعلم العميق في PyTorch .
- أداء وكفاءة عالية ، مع الاستفادة من numba وjoblib لتجميع JIT والمعالجة المتوازية.
- التدريب والتنبؤ السريع ، يتم تحقيقه من خلال إطار عمل SUOD [50].
الكشف عن الخارج باستخدام 5 أسطر من التعليمات البرمجية :
# Example: Training an ECOD detector
from pyod . models . ecod import ECOD
clf = ECOD ()
clf . fit ( X_train )
y_train_scores = clf . decision_scores_ # Outlier scores for training data
y_test_scores = clf . decision_function ( X_test ) # Outlier scores for test data
اختيار الخوارزمية الصحيحة: غير متأكد من أين تبدأ؟ فكر في هذه الخيارات القوية والقابلة للتفسير:
- ECOD: مثال على استخدام ECOD للكشف عن القيم الخارجية
- الغابة المعزولة: مثال على استخدام الغابة المعزولة للكشف عن الأشياء الخارجية
وبدلاً من ذلك، استكشف MetaOD لنهج يعتمد على البيانات.
نقلا عن PyOD :
تم نشر ورقة PyOD في مجلة أبحاث التعلم الآلي (JMLR) (مسار MLOSS). إذا كنت تستخدم PyOD في منشور علمي، فإننا نقدر الاستشهادات بالورقة التالية:
@المقال{zhao2019pyod،
المؤلف = {تشاو، يو ونصر الله، زين ولي، تشنغ}،
عنوان = {PyOD: مجموعة أدوات بايثون للكشف عن القيم الخارجية القابلة للتطوير}،
مجلة = {مجلة أبحاث التعلم الآلي}،
العام = {2019}،
الحجم = {20}،
الرقم = {96}،
الصفحات = {1-7}،
رابط = {http://jmlr.org/papers/v20/19-011.html}
}
أو:
تشاو، واي، نصر الله، زي، ولي، زي، 2019. PyOD: مجموعة أدوات بايثون للكشف عن القيم الخارجية القابلة للتطوير. مجلة أبحاث التعلم الآلي (JMLR)، 20(96)، الصفحات من 1 إلى 7.
للحصول على منظور أوسع حول اكتشاف الحالات الشاذة، راجع أوراقنا البحثية الخاصة بـ NeurIPS ADBench: ورقة قياس الأداء للكشف عن الشذوذات وADGym: خيارات التصميم للكشف عن الشذوذات العميقة:
@المادة{han2022adbench،
title={Adbench: معيار اكتشاف الحالات الشاذة}،
المؤلف={هان، سونغكياو وهو، شيانغ وهوانغ، هايليانغ وجيانغ، مينكي وتشاو، يو}،
مجلة={التقدم في أنظمة معالجة المعلومات العصبية}،
الحجم = {35}،
الصفحات={32142--32159},
العام={2022}
}
@المقال{جيانغ2023adgym،
title={ADGym: اختيارات التصميم لاكتشاف العيوب العميقة}،
المؤلف={جيانغ، مينكي وهو، تشاوشوان وتشنغ، آو وهان، سونغكياو وهوانغ، هايليانغ ووين، تشينغ سونغ وهو، شيانغ وتشاو، يو}،
مجلة={التقدم في أنظمة معالجة المعلومات العصبية}،
الحجم = {36}،
العام={2023}
}
جدول المحتويات :
- تثبيت
- ورقة الغش API والمرجع
- معيار ADBench ومجموعات البيانات
- نموذج حفظ وتحميل
- قطار سريع مع SUOD
- عتبة الدرجات الخارجية
- الخوارزميات المنفذة
- بداية سريعة للكشف عن الخارجين
- كيفية المساهمة
- معايير الاشتمال
تثبيت
تم تصميم PyOD لسهولة التثبيت باستخدام pip أو conda . نوصي باستخدام أحدث إصدار من PyOD بسبب التحديثات والتحسينات المتكررة:
pip install pyod # normal install
pip install --upgrade pyod # or update if needed
conda install -c conda-forge pyod
وبدلاً من ذلك، يمكنك استنساخ ملف setup.py وتشغيله:
git clone https://github.com/yzhao062/pyod.git
cd pyod
pip install .
التبعيات المطلوبة :
- بايثون 3.8 أو أعلى
- joblib
- matplotlib
- numpy>=1.19
- نومبا>=0.51
- سكيبي>=1.5.1
- scikit_learn>=0.22.0
التبعيات الاختيارية (انظر التفاصيل أدناه) :
- التحرير والسرد (اختياري، مطلوب للنماذج/combination.py وFeatureBaging)
- pytorch (اختياري، مطلوب لـ AutoEncoder، ونماذج التعلم العميق الأخرى)
- suod (اختياري، مطلوب لتشغيل طراز SUOD)
- xgboost (اختياري، مطلوب لـ XGBOD)
- pythresh (اختياري، مطلوب للعتبة)
ورقة الغش API والمرجع
مرجع API الكامل متاح في وثائق PyOD. فيما يلي ورقة غش سريعة لجميع أجهزة الكشف:
- تناسب (X) : قم بتركيب الكاشف. يتم تجاهل المعلمة y في الطرق غير الخاضعة للرقابة.
- القرار_الوظيفة(X) : توقع درجات الشذوذ الأولية لـ X باستخدام الكاشف المجهز.
- توقع (X) : تحديد ما إذا كانت العينة تمثل قيمة متطرفة أم لا كتسميات ثنائية باستخدام الكاشف المجهز.
- توقع_proba(X) : تقدير احتمال أن تكون العينة متطرفة باستخدام الكاشف المجهز.
- توقع_الثقة (X) : تقييم ثقة النموذج على أساس كل عينة (ينطبق في التنبؤ وتوقع_بروبا) [35].
السمات الرئيسية للنموذج المجهز :
- cision_scores_ : الدرجات الخارجية لبيانات التدريب. تشير الدرجات الأعلى عادة إلى المزيد من السلوك غير الطبيعي. القيم المتطرفة عادة ما يكون لها درجات أعلى.
- labels_ : تسميات ثنائية لبيانات التدريب، حيث يشير الرقم 0 إلى القيم الداخلية ويشير الرقم 1 إلى القيم المتطرفة/الحالات الشاذة.
معيار ADBench ومجموعات البيانات
لقد قمنا للتو بإصدار تقرير مكون من 45 صفحة، وهو ADBench الأكثر شمولاً: معيار الكشف عن الشذوذات [15]. يقوم ADBench مفتوح المصدر بالكامل بمقارنة 30 خوارزمية للكشف عن الحالات الشاذة في 57 مجموعة بيانات مرجعية.
يتم توفير تنظيم ADBench أدناه:
للحصول على تصور أبسط، نقوم بإجراء مقارنة بين النماذج المحددة عبر Compare_all_models.py.
نموذج حفظ وتحميل
يتبع PyOD نهجًا مشابهًا لـ sklearn فيما يتعلق بثبات النموذج. انظر ثبات النموذج للتوضيح.
باختصار، نوصي باستخدام joblib أو Pickle لحفظ وتحميل نماذج PyOD. راجع "examples/save_load_model_example.py" للحصول على مثال. باختصار الأمر بسيط كما يلي:
from joblib import dump , load
# save the model
dump ( clf , 'clf.joblib' )
# load the model
clf = load ( 'clf.joblib' )
ومن المعروف أن هناك تحديات في حفظ نماذج الشبكات العصبية. تحقق من رقم 328 ورقم 88 لمعرفة الحل المؤقت.
قطار سريع مع SUOD
التدريب والتنبؤ السريع : من الممكن التدريب والتنبؤ باستخدام عدد كبير من نماذج الكشف في PyOD من خلال الاستفادة من إطار SUOD [50]. راجع ورقة SUOD ومثال SUOD.
from pyod . models . suod import SUOD
# initialized a group of outlier detectors for acceleration
detector_list = [ LOF ( n_neighbors = 15 ), LOF ( n_neighbors = 20 ),
LOF ( n_neighbors = 25 ), LOF ( n_neighbors = 35 ),
COPOD (), IForest ( n_estimators = 100 ),
IForest ( n_estimators = 200 )]
# decide the number of parallel process, and the combination method
# then clf can be used as any outlier detection model
clf = SUOD ( base_estimators = detector_list , n_jobs = 2 , combination = 'average' ,
verbose = False )
عتبة الدرجات الخارجية
ويمكن اتباع نهج أكثر استنادا إلى البيانات عند تحديد مستوى التلوث. باستخدام طريقة العتبة، يمكن استبدال تخمين القيمة العشوائية بتقنيات تم اختبارها لفصل القيم الداخلية والقيم المتطرفة. ارجع إلى PyThresh لإلقاء نظرة أكثر تعمقًا على العتبات.
from pyod . models . knn import KNN
from pyod . models . thresholds import FILTER
# Set the outlier detection and thresholding methods
clf = KNN ( contamination = FILTER ())
راجع طرق تحديد العتبات المدعومة في تحديد العتبات.
الخوارزميات المنفذة
تتكون مجموعة أدوات PyOD من أربع مجموعات وظيفية رئيسية:
(ط) خوارزميات الكشف الفردية :
يكتب | أبر | خوارزمية | سنة | المرجع |
---|
احتمالية | إيكود | الكشف عن القيم الخارجية غير الخاضعة للرقابة باستخدام وظائف التوزيع التراكمي التجريبية | 2022 | [28] |
احتمالية | أبو | كشف الزاوية الخارجية | 2008 | [22] |
احتمالية | FastABOD | اكتشاف سريع للزوايا الخارجية باستخدام التقريب | 2008 | [22] |
احتمالية | مرض الانسداد الرئوي المزمن | مرض الانسداد الرئوي المزمن (COPOD): الكشف عن القيم الخارجية المستندة إلى الكوبولا | 2020 | [27] |
احتمالية | مجنون | متوسط الانحراف المطلق (MAD) | 1993 | [19] |
احتمالية | SOS | اختيار العشوائية المتطرفة | 2012 | [20] |
احتمالية | QMCD | الكشف عن التناقضات شبه مونت كارلو | 2001 | [11] |
احتمالية | كيدي | الكشف عن الخارج باستخدام وظائف كثافة النواة | 2007 | [24] |
احتمالية | أخذ العينات | الكشف السريع عن المسافة البعيدة عن طريق أخذ العينات | 2013 | [42] |
احتمالية | غم | نمذجة الخليط الاحتمالي للتحليل الخارجي | | [1] [الفصل 2] |
النموذج الخطي | PCA | تحليل المكون الرئيسي (مجموع المسافات المتوقعة الموزونة إلى الطائرات الفائقة للمتجهات الذاتية) | 2003 | [41] |
النموذج الخطي | KPCA | تحليل مكونات النواة الرئيسية | 2007 | [18] |
النموذج الخطي | MCD | الحد الأدنى من محدد التباين (استخدم مسافات mahalanobis كدرجات خارجية) | 1999 | [16] [37] |
النموذج الخطي | قرص مضغوط | استخدم مسافة كوك للكشف عن الأشياء الخارجية | 1977 | [10] |
النموذج الخطي | OCSVM | آلات ناقلات الدعم من فئة واحدة | 2001 | [40] |
النموذج الخطي | إل إم دي دي | كشف القيم الخارجية القائم على الانحراف (LMDD) | 1996 | [6] |
على أساس القرب | LOF | العامل الخارجي المحلي | 2000 | [8] |
على أساس القرب | COF | العامل الخارجي القائم على الاتصال | 2002 | [43] |
على أساس القرب | (تزايدي) COF | عامل خارجي يعتمد على كفاءة الذاكرة (أبطأ ولكن يقلل من تعقيد التخزين) | 2002 | [43] |
على أساس القرب | CBLOF | العامل الخارجي المحلي القائم على التجميع | 2003 | [17] |
على أساس القرب | مواضع | LOCI: اكتشاف سريع للخارج باستخدام تكامل الارتباط المحلي | 2003 | [33] |
على أساس القرب | HBOS | النتيجة الخارجية المستندة إلى الرسم البياني | 2012 | [12] |
على أساس القرب | كن | k أقرب الجيران (استخدم المسافة إلى kth أقرب جار كنتيجة خارجية) | 2000 | [36] |
على أساس القرب | أفجكن | متوسط kNN (استخدم متوسط المسافة إلى k أقرب الجيران كنتيجة خارجية) | 2002 | [5] |
على أساس القرب | ميدكن | متوسط kNN (استخدم المسافة المتوسطة إلى k أقرب الجيران كنتيجة خارجية) | 2002 | [5] |
على أساس القرب | الاحمق | اكتشاف الفضاء الفرعي الخارجي | 2009 | [23] |
على أساس القرب | عصا | الكشف عن القيم الخارجية القائم على الدوران | 2020 | [4] |
الفرق الخارجية | إيفوريست | غابة العزلة | 2008 | [29] |
الفرق الخارجية | إني | اكتشاف الشذوذ القائم على العزلة باستخدام مجموعات الجيران الأقرب | 2018 | [7] |
الفرق الخارجية | ديف | غابة العزلة العميقة للكشف عن الحالات الشاذة | 2023 | [45] |
الفرق الخارجية | فيسبوك | ميزة التعبئة | 2005 | [25] |
الفرق الخارجية | LSCP | LSCP: مزيج انتقائي محليًا من المجموعات الخارجية المتوازية | 2019 | [49] |
الفرق الخارجية | XGBOD | الكشف عن القيم الخارجية المستندة إلى التعزيز الشديد (خاضع للإشراف) | 2018 | [48] |
الفرق الخارجية | لودا | خفيف الوزن للكشف عن الحالات الشاذة عبر الإنترنت | 2016 | [34] |
الفرق الخارجية | سوود | SUOD: تسريع اكتشاف العناصر غير المتجانسة غير المتجانسة على نطاق واسع (التسريع) | 2021 | [50] |
الشبكات العصبية | التشفير التلقائي | وحدة التشفير التلقائي المتصلة بالكامل (استخدم خطأ إعادة الإعمار كنتيجة خارجية) | | [1] [الفصل 3] |
الشبكات العصبية | ضريبة القيمة المضافة | أداة التشفير التلقائي المتغيرة (استخدم خطأ إعادة الإعمار باعتباره النتيجة الخارجية) | 2013 | [21] |
الشبكات العصبية | بيتا-VAE | أداة التشفير التلقائي المتغيرة (جميع مصطلحات الخسارة المخصصة عن طريق تغيير غاما والسعة) | 2018 | [9] |
الشبكات العصبية | SO_GAAL | التعلم النشط التوليدي التوليدي أحادي الهدف | 2019 | [30] |
الشبكات العصبية | مو_جال | التعلم النشط التوليدي التنافسي متعدد الأهداف | 2019 | [30] |
الشبكات العصبية | DeepSVDD | تصنيف عميق من فئة واحدة | 2018 | [38] |
الشبكات العصبية | أنوجان | اكتشاف الشذوذ باستخدام شبكات الخصومة التوليدية | 2017 | [39] |
الشبكات العصبية | ALAD | الكشف عن الشذوذ المستفادة بشكل عدائي | 2018 | [47] |
الشبكات العصبية | AE1SVM | آلة ناقل الدعم من فئة واحدة المعتمدة على التشفير التلقائي | 2019 | [31] |
الشبكات العصبية | ديفنيت | الكشف عن الشذوذ العميق باستخدام شبكات الانحراف | 2019 | [32] |
على أساس الرسم البياني | الرسم البياني R | الكشف الخارجي عن طريق الرسم البياني R | 2017 | [46] |
على أساس الرسم البياني | قمري | LUNAR: توحيد طرق الكشف المحلية عن طريق الشبكات العصبية الرسومية | 2022 | [13] |
(2) المجموعات الخارجية وأطر عمل مجموعة الكاشفات الخارجية :
يكتب | أبر | خوارزمية | سنة | المرجع |
---|
الفرق الخارجية | فيسبوك | ميزة التعبئة | 2005 | [25] |
الفرق الخارجية | LSCP | LSCP: مزيج انتقائي محليًا من المجموعات الخارجية المتوازية | 2019 | [49] |
الفرق الخارجية | XGBOD | الكشف عن القيم الخارجية المستندة إلى التعزيز الشديد (خاضع للإشراف) | 2018 | [48] |
الفرق الخارجية | لودا | خفيف الوزن للكشف عن الحالات الشاذة عبر الإنترنت | 2016 | [34] |
الفرق الخارجية | سوود | SUOD: تسريع اكتشاف العناصر غير المتجانسة غير المتجانسة على نطاق واسع (التسريع) | 2021 | [50] |
الفرق الخارجية | إني | اكتشاف الشذوذ القائم على العزلة باستخدام مجموعات الجيران الأقرب | 2018 | [7] |
مزيج | متوسط | مزيج بسيط عن طريق حساب متوسط الدرجات | 2015 | [2] |
مزيج | المتوسط المرجح | تركيبة بسيطة عن طريق حساب متوسط الدرجات باستخدام أوزان الكاشف | 2015 | [2] |
مزيج | تعظيم | مزيج بسيط عن طريق أخذ الحد الأقصى من الدرجات | 2015 | [2] |
مزيج | أوم | متوسط الحد الأقصى | 2015 | [2] |
مزيج | وزارة الزراعة | تعظيم المتوسط | 2015 | [2] |
مزيج | متوسط | مزيج بسيط عن طريق أخذ متوسط الدرجات | 2015 | [2] |
مزيج | تصويت الأغلبية | تركيبة بسيطة عن طريق أخذ أغلبية أصوات التسميات (يمكن استخدام الأوزان) | 2015 | [2] |
(3) وظائف المرافق :
يكتب | اسم | وظيفة | التوثيق |
---|
بيانات | create_data | توليد البيانات المركبة؛ يتم إنشاء البيانات العادية بواسطة غاوسي متعدد المتغيرات ويتم إنشاء القيم المتطرفة من خلال توزيع موحد | create_data |
بيانات | create_data_clusters | توليد البيانات المركبة في مجموعات؛ يمكن إنشاء أنماط بيانات أكثر تعقيدًا باستخدام مجموعات متعددة | create_data_clusters |
الإحصائيات | com.wpeasonr | حساب ارتباط بيرسون المرجح لعينتين | com.wpeasonr |
جدوى | get_label_n | قم بتحويل الدرجات الخارجية الخام إلى تسميات ثنائية عن طريق تعيين 1 لأعلى الدرجات الخارجية | get_label_n |
جدوى | الدقة_n_scores | حساب الدقة @ رتبة ن | الدقة_n_scores |
بداية سريعة للكشف عن الخارجين
لقد تم الاعتراف بـ PyOD جيدًا من قبل مجتمع التعلم الآلي من خلال بعض المنشورات والبرامج التعليمية المميزة.
Analytics Vidhya : برنامج تعليمي رائع لتعلم الاكتشاف الخارجي في Python باستخدام مكتبة PyOD
KDnuggets : تصور بديهي لطرق الكشف الخارجية، نظرة عامة على طرق الكشف الخارجية من PyOD
نحو علم البيانات : الكشف عن الشذوذ للدمى
يوضح "examples/knn_example.py" واجهة برمجة التطبيقات الأساسية لاستخدام كاشف kNN. تجدر الإشارة إلى أن واجهة برمجة التطبيقات عبر جميع الخوارزميات الأخرى متسقة/متشابهة .
يمكن العثور على تعليمات أكثر تفصيلاً لتشغيل الأمثلة في دليل الأمثلة.
قم بتهيئة كاشف kNN، وتناسب النموذج، وقم بالتنبؤ.
from pyod . models . knn import KNN # kNN detector
# train kNN detector
clf_name = 'KNN'
clf = KNN ()
clf . fit ( X_train )
# get the prediction label and outlier scores of the training data
y_train_pred = clf . labels_ # binary labels (0: inliers, 1: outliers)
y_train_scores = clf . decision_scores_ # raw outlier scores
# get the prediction on the test data
y_test_pred = clf . predict ( X_test ) # outlier labels (0 or 1)
y_test_scores = clf . decision_function ( X_test ) # outlier scores
# it is possible to get the prediction confidence as well
y_test_pred , y_test_pred_confidence = clf . predict ( X_test , return_confidence = True ) # outlier labels (0 or 1) and confidence in the range of [0,1]
تقييم التنبؤ بواسطة ROC وPrecision @ Rank n (p@n).
from pyod . utils . data import evaluate_print
# evaluate and print the results
print ( " n On Training Data:" )
evaluate_print ( clf_name , y_train , y_train_scores )
print ( " n On Test Data:" )
evaluate_print ( clf_name , y_test , y_test_scores )
انظر إخراج العينة والتصور.
On Training Data :
KNN ROC : 1.0 , precision @ rank n : 1.0
On Test Data :
KNN ROC : 0.9989 , precision @ rank n : 0.9
visualize ( clf_name , X_train , y_train , X_test , y_test , y_train_pred ,
y_test_pred , show_figure = True , save_figure = False )
التصور (knn_figure):
مرجع
[1] | (1، 2) Aggarwal، CC، 2015. التحليل الخارجي. في التنقيب عن البيانات (ص 237-263). سبرينغر، تشام. |
[2] | (1، 2، 3، 4، 5، 6، 7) Aggarwal، CC and Sathe، S.، 2015. الأسس النظرية والخوارزميات للمجموعات الخارجية. النشرة الإخبارية لاستكشافات ACM SIGKDD ، 17(1)، الصفحات من 24 إلى 47. |
[3] | Aggarwal، CC and Sathe، S.، 2017. الفرق الخارجية: مقدمة. سبرينغر. |
[4] | Almardeny, Y., Boujnah, N. and Cleary, F., 2020. طريقة جديدة للكشف عن القيم الخارجية للبيانات متعددة المتغيرات. معاملات IEEE على المعرفة وهندسة البيانات . |
[5] | (1، 2) أنجيولي، ف. وبيزوتي، سي، 2002، أغسطس. اكتشاف سريع للخارج في المساحات ذات الأبعاد العالية. في المؤتمر الأوروبي لمبادئ استخراج البيانات واكتشاف المعرفة ص 15-27. |
[6] | Arning, A., Agrawal, R. and Raghavan, P., 1996, أغسطس. طريقة خطية لكشف الانحراف في قواعد البيانات الكبيرة. في KDD (المجلد 1141، العدد 50، الصفحات 972-981). |
[7] | (1، 2) Bandaragoda، TR، Ting، KM، Albrecht، D.، Liu، FT، Zhu، Y.، and Wells، JR، 2018، الكشف عن الشذوذ القائم على العزلة باستخدام مجموعات الجار الأقرب. الذكاء الحسابي , 34(4)، الصفحات من 968 إلى 998. |
[8] | بريونج، إم إم، كريجل، إتش بي، إن جي، آر تي وساندر، جيه، 2000، مايو. LOF: تحديد القيم المتطرفة المحلية القائمة على الكثافة. سجل ACM سيجمود , 29(2)، الصفحات من 93 إلى 104. |
[9] | بيرجس، كريستوفر P.، وآخرون. "فهم التفكيك في بيتا VAE." arXiv طبعة أولية arXiv:1804.03599 (2018). |
[10] | Cook, RD, 1977. الكشف عن الملاحظة المؤثرة في الانحدار الخطي. تكنوميتريكس، 19(1)، الصفحات 15-18. |
[11] | Fang, KT and Ma, CX, 2001. تناقض L2 الملتف لأخذ العينات العشوائية والمكعب الزائد اللاتيني والتصميمات الموحدة. مجلة التعقيد، 17(4)، الصفحات من 608 إلى 624. |
[12] | Goldstein، M. and Dengel، A.، 2012. النتيجة الخارجية القائمة على الرسم البياني (hbos): خوارزمية سريعة للكشف عن الشذوذ غير خاضعة للرقابة. في KI-2012: الملصق والمسار التجريبي ، الصفحات من 59 إلى 63. |
[13] | Goodge, A., Hooi, B., Ng, SK and Ng, WS, 2022, يونيو. القمري: توحيد طرق الكشف المحلية عن طريق الشبكات العصبية الرسومية. في وقائع مؤتمر AAAI حول الذكاء الاصطناعي. |
[14] | Gopalan, P., Sharan, V. and Wieder, U., 2019. PIDForest: اكتشاف الشذوذ عن طريق التحديد الجزئي. في التقدم في أنظمة معالجة المعلومات العصبية، ص 15783-15793. |
[15] | Han, S., Hu, X., Huang, H., Jiang, M. and Zhao, Y., 2022. ADBench: معيار الكشف عن الشذوذ. arXiv الطباعة المسبقة arXiv:2206.09426. |
[16] | Hardin، J. and Rocke، DM، 2004. الكشف الخارجي في إعداد المجموعات المتعددة باستخدام الحد الأدنى من مقدر محدد التغاير. الإحصاء الحسابي وتحليل البيانات , 44(4)، الصفحات من 625 إلى 638. |
[17] | He، Z.، Xu، X. and Deng، S.، 2003. اكتشاف القيم المتطرفة المحلية القائمة على الكتلة. رسائل التعرف على الأنماط , 24(9-10)، الصفحات من 1641 إلى 1650. |
[18] | هوفمان، H.، 2007. Kernel PCA للكشف عن الجدة. التعرف على الأنماط، 40(3)، الصفحات 863-874. |
[19] | Iglewicz, B. and Hoaglin, DC, 1993. كيفية اكتشاف القيم المتطرفة والتعامل معها (المجلد 16). الصحافة أسق. |
[20] | Janssens، JHM، Huszár، F.، Postma، EO and van den Herik، HJ، 2012. اختيار العشوائية الخارجية. التقرير الفني TiCC TR 2012-001، جامعة تيلبورج، مركز تيلبورج للإدراك والتواصل، تيلبورج، هولندا. |
[21] | Kingma, DP and Welling, M., 2013. التشفير التلقائي للخليج المتغير. arXiv الطباعة المسبقة arXiv:1312.6114. |
[22] | (1، 2) كريجيل، إتش بي وزيميك، أ.، 2008، أغسطس. الكشف الخارجي القائم على الزاوية في البيانات عالية الأبعاد. في KDD '08 ، الصفحات من 444 إلى 452. ايه سي ام. |
[23] | كريجل، إتش بي، كروجر، بي، شوبرت، إي، وزيميك، أ، 2009، أبريل. الكشف الخارجي في المساحات الفرعية المتوازية للمحور للبيانات عالية الأبعاد. في مؤتمر المحيط الهادئ وآسيا حول اكتشاف المعرفة واستخراج البيانات ، الصفحات من 831 إلى 838. سبرينغر، برلين، هايدلبرغ. |
[24] | لاتيكي، إل جيه، لازاريفيتش، أ. وبوكراجاك، د.، 2007، يوليو. الكشف عن الخارج باستخدام وظائف كثافة النواة. في ورشة العمل الدولية حول التعلم الآلي واستخراج البيانات في التعرف على الأنماط (الصفحات 61-75). سبرينغر، برلين، هايدلبرغ. |
[25] | (1، 2) أ. لازاريفيتش وكومار ف.، 2005، أغسطس. ميزة التعبئة للكشف عن الخارج. في كي دي دي '05 . 2005. |
[26] | Li, D., Chen, D., Jin, B., Shi, L., Goh, J. and Ng, SK, 2019, سبتمبر. MAD-GAN: اكتشاف الشذوذ متعدد المتغيرات لبيانات السلاسل الزمنية باستخدام شبكات الخصومة التوليدية. في المؤتمر الدولي للشبكات العصبية الاصطناعية (ص 703-716). سبرينغر، تشام. |
[27] | Li، Z.، Zhao، Y.، Botta، N.، Ionescu، C. and Hu، X. COPOD: الكشف الخارجي القائم على الكوبولا. مؤتمر IEEE الدولي للتنقيب عن البيانات (ICDM) 2020. |
[28] | Li, Z., Zhao, Y., Hu, X., Botta, N., Ionescu, C. and Chen, HG ECOD: الكشف عن القيم الخارجية غير الخاضعة للرقابة باستخدام وظائف التوزيع التراكمي التجريبية. معاملات IEEE حول المعرفة وهندسة البيانات (TKDE) ، 2022. |
[29] | ليو، إف تي، تينغ، كم، وتشو، زد إتش، 2008، ديسمبر. غابة العزلة في المؤتمر الدولي لاستخراج البيانات ، الصفحات من 413 إلى 422. IEEE. |
[30] | (1، 2) Liu, Y., Li, Z., Zhou, C., Jiang, Y., Sun, J., Wang, M. and He, X., 2019. التعلم النشط الخصوم التوليدي للكشف عن القيم المتطرفة غير الخاضعة للرقابة . معاملات IEEE على المعرفة وهندسة البيانات . |
[31] | Nguyen, MN and Vien, NA, 2019. svms من فئة واحدة قابلة للتطوير والتفسير مع التعلم العميق وميزات فورييه العشوائية. في التعلم الآلي واكتشاف المعرفة في قواعد البيانات: المؤتمر الأوروبي ، ECML PKDD، 2018. |
[32] | بانغ، وجوانسونج، وتشونهوا شين، وأنتون فان دن هينجل. "الكشف العميق عن الشذوذ باستخدام شبكات الانحراف." في كي دي دي ، ص 353-362. 2019. |
[33] | Papadimitriou، S.، Kitagawa، H.، Gibbons، PB and Faloutsos، C.، 2003، March. LOCI: اكتشاف سريع للخارج باستخدام تكامل الارتباط المحلي. في ICDE '03 ، ص 315-326. IEEE. |
[34] | (1، 2) Pevný، T.، 2016. Loda: كاشف خفيف الوزن عبر الإنترنت للشذوذات. التعلم الآلي , 102(2)، الصفحات من 275 إلى 304. |
[35] | Perini، L.، Vercruyssen، V.، Davis، J. قياس ثقة أجهزة الكشف عن الشذوذ في تنبؤاتها الحكيمة. في المؤتمر الأوروبي المشترك حول التعلم الآلي واكتشاف المعرفة في قواعد البيانات (ECML-PKDD) ، 2020. |
[36] | راماسوامي، إس، راستوجي، آر وشيم، ك، 2000، مايو. خوارزميات فعالة لاستخراج القيم المتطرفة من مجموعات البيانات الكبيرة. سجل ACM سيجمود , 29(2)، الصفحات من 427 إلى 438. |
[37] | Rousseeuw، PJ and Driessen، KV، 1999. خوارزمية سريعة لمقدر محدد التغاير الأدنى. تكنوميتريكس , 41(3)، الصفحات من 212 إلى 223. |
[38] | Ruff, L., Vandermeulen, R., Goernitz, N., Deecke, L., Siddiqui, SA, Binder, A., Müller, E. and Kloft, M., 2018, July. تصنيف عميق من فئة واحدة. في المؤتمر الدولي للتعلم الآلي (ص 4393-4402). PMLR. |
[39] | Schlegl, T., Seeböck, P., Waldstein, SM, Schmidt-Erfurth, U. and Langs, G., 2017, يونيو. الكشف عن الحالات الشاذة غير الخاضعة للرقابة باستخدام شبكات الخصومة التوليدية لتوجيه اكتشاف العلامات. في المؤتمر الدولي لمعالجة المعلومات في التصوير الطبي (ص 146-157). سبرينغر، تشام. |
[40] | Scholkopf، B.، Platt، JC، Shawe-Taylor، J.، Smola، AJ and Williamson، RC، 2001. تقدير دعم التوزيع عالي الأبعاد. الحساب العصبي , 13(7)، الصفحات من 1443 إلى 1471. |
[41] | Shyu، ML، Chen، SC، Sarinnapakorn، K. and Chang، L.، 2003. مخطط جديد للكشف عن الشذوذ يعتمد على مصنف المكون الرئيسي. جامعة ميامي كورال جابلز فلوريدا قسم الهندسة الكهربائية وهندسة الكمبيوتر . |
[42] | Sugiyama، M. and Borgwardt، K.، 2013. الكشف السريع عن بعد عن طريق أخذ العينات. التقدم في نظم معالجة المعلومات العصبية، 26. |
[43] | (1، 2) Tang, J., Chen, Z., Fu, AWC and Cheung, DW, 2002, May. تعزيز فعالية الاكتشافات الخارجية لأنماط الكثافة المنخفضة. في مؤتمر المحيط الهادئ وآسيا حول اكتشاف المعرفة واستخراج البيانات ، الصفحات من 535 إلى 548. سبرينغر، برلين، هايدلبرغ. |
[44] | Wang, X., Du, Y., Lin, S., Cui, P., Shen, Y. and Yang, Y., 2019. adVAE: جهاز تشفير تلقائي تبايني ذاتي الخصومة مع معرفة مسبقة بالشذوذ الغاوسي للكشف عن الشذوذ. النظم القائمة على المعرفة . |
[45] | Xu، H.، Pang، G.، Wang، Y.، Wang، Y.، 2023. غابة عزلة عميقة للكشف عن الشذوذ. معاملات IEEE على المعرفة وهندسة البيانات . |
[46] | You، C.، Robinson، DP and Vidal، R.، 2017. التمثيل الذاتي القائم على الكشف الخارجي في اتحاد المساحات الفرعية. في وقائع مؤتمر IEEE حول رؤية الكمبيوتر والتعرف على الأنماط. |
[47] | Zenati, H., Romain, M., Foo, CS, Lecouat, B. and Chandrasekhar, V., 2018, نوفمبر. الكشف عن الشذوذ المستفادة بشكل عدائي. في مؤتمر IEEE الدولي لعام 2018 حول استخراج البيانات (ICDM) (الصفحات 727-736). IEEE. |
[48] | (1، 2) Zhao, Y. and Hryniewicki, MK XGBOD: تحسين الكشف عن القيم الخارجية الخاضعة للإشراف من خلال تعلم التمثيل غير الخاضع للرقابة. مؤتمر IEEE الدولي المشترك حول الشبكات العصبية ، 2018. |
[49] | (1، 2) تشاو، ي.، نصر الله، ز.، هرينيويكي، إم كيه، ولي، ز، 2019، مايو. LSCP: مجموعة انتقائية محليًا في مجموعات خارجية متوازية. في وقائع مؤتمر SIAM الدولي للتنقيب عن البيانات (SDM) لعام 2019 ، الصفحات من 585 إلى 593. جمعية الرياضيات الصناعية والتطبيقية. |
[50] | (1، 2، 3، 4) تشاو، واي، هو، إكس، تشينج، سي، وانج، سي، وان، سي، وانج، دبليو، يانج، جيه، باي، إتش، لي , Z.، Xiao، C.، Wang، Y.، Qiao، Z.، Sun، J. and Akoglu، L. (2021). SUOD: تسريع اكتشاف العناصر غير المتجانسة غير المتجانسة على نطاق واسع. مؤتمر التعلم الآلي والأنظمة (MLSys) . |