
_ _ _
___ _ __________ | | _ ___ __ __ __ _ _ _ __(_)__ _ _ _ __ | | _ ___
/ __ || '_ _ _ / _ | __ | / _ _____ / // _` || '__ || | / _` || '_ | __ |/ __ |
__ | | | | | || (_)|| | _ | __ /| _____ | v /| (_ | || | ||(_ | || || || | _ __ __
| ___/| _ | | _ | | _ | ___/ __ | ___ | _/ __,_ || _ | | _ | __,_ || _ | | _ | __ || ___//
smote-variants用于学习不平衡的学习
最新消息
- 1.0.0发布已发布
- 添加了底采样技术
- Smotewb添加了,感谢@szghlm
- 大多数技术的矢量化实现以提高性能
- 重构和改进的评估和模型选择工具包
- 100%测试覆盖范围
- 10.0 PEP8符合符号(pylint)
- polynom_fit_smote分为4种不同的技术
- Symprod添加为实施的第86次超采样器,这要归功于@intouchkun
介绍
该软件包实现了合成少数民族过采样技术(SMOTE)的86种变体。除了实施外,还提供了易于使用的模型选择框架,以便在看不见的数据集上快速评估过采样技术。
实施的技术:[Smote],[Smote_tomeklinks],[Smote_enn],[berdyline_smote1],[berdyline_smote2],[adasyn],[ahc],[ahc],[lle_smote],[lle_smote],[dangess_smote] ],[adoms],[safe_level_smote],[msmote],[de_oversampling],[smobd],[sundo],[msyn],[svm_balance],[trim_smote],[smote_rsb] [NRSBoundary_SMOTE] , [LVQ_SMOTE] , [SOI_CJ] , [ROSE] , [SMOTE_OUT] , [SMOTE_Cosine] , [Selected_SMOTE] , [LN_SMOTE] , [MWMOTE] , [PDFOS] , [IPADE_ID] , [RWO_sampling] , [NEATER ],[deago],[Gazzah],[MCT],[ADG],[SMOTE_IPF],[kerneladasyn],[mot2ld],[v_synth],[Oups],[smote_d],[smote_d],[smote_pso],[smote_pso] [SOMO],[ISOMAP_HYBRID],[CE_SMOTE],[EDGE_DET_SMOTE],[CBSO],[E_SMOTE],[DBSMOTE],[ASMOBD],[ASMMOBD],[assembled_smote] ],[lee],[spy],[smote_psobat],[mdo],[Random_smote],[ismote],[vis_rst],[gasmote],[a_suwo],[smote_frst_2t],[smote_frst_2t],[and_smote] [AMSCO],[SSO],[NDO_SAMPLING],[DSRBF],[GAUSSIAN_SMOTE],[KMEANS_SMOTE],[SUPSSERISED_SMOTE],[SN_SMOTE],[SN_SMOTE],[CCR],[CCR],[ANS],[ANS],[ANS],[CLUSTER_SMOTE],[CLUSTER_SMOTE],[SYMPOROD],[SMOTPROD],[SMOTEWB],[SMOTEWB],[SMOTEWB]这是给出的
比较和评估
有关所有实施技术的详细比较和评估,请参见link_to_to_comparison_paper
引用
如果您在研究中使用此软件包,请考虑引用以下论文。
描述软件包的预印本请参见link_to_package_paper
包装的Bibtex:
@article { smote-variants ,
author = { Gy"orgy Kov'acs } ,
title = { smote-variants: a Python Implementation of 85 Minority Oversampling Techniques } ,
journal = { Neurocomputing } ,
note = { (IF-2019=4.07) } ,
volume = { 366 } ,
pages = { 352--354 } ,
year = { 2019 } ,
group = { journal } ,
code = { https://github.com/analyticalmindsltd/smote_variants } ,
doi = { 10.1016/j.neucom.2019.06.100 }
}
有关比较研究的预印本,请参见link_to_evaluation_paper
Bibtex进行比较和评估:
@article { smote-comparison ,
author = { Gy"orgy Kov'acs } ,
title = { An empirical comparison and evaluation of minority oversampling techniques on a large number of imbalanced datasets } ,
journal = { Applied Soft Computing } ,
note = { (IF-2019=4.873) } ,
volume = { 83 } ,
pages = { 105662 } ,
year = { 2019 } ,
link = { https://www.sciencedirect.com/science/article/pii/S1568494619304429 } ,
group = { journal } ,
code = { https://github.com/analyticalmindsltd/smote_variants } ,
doi = { 10.1016/j.asoc.2019.105662 }
}
安装
该软件包可以以通常的方式从github克隆,最新的稳定版本也可以在PYPI存储库中使用:
pip install smote-variants
文档
- 有关详细的文档,请参见http://smote-variants.readthedocs.io。
- 有关YouTube教程检查https://www.youtube.com/watch?v=gsk7akqpm60
最佳实践
归一化/标准化/缩放/特征选择
大多数过采样技术在属性所隐含的欧几里得空间中运行。因此,适当地标准化/扩展属性非常重要。由于不了解属性的重要性,因此,标准化/标准化是一个很好的第一次尝试。从Bootstrap分类中具有某些域知识或属性的重要性,属性范围根据其重要性的范围也是合理的。另外,特征子集选择还可以通过在最合适的子空间中的过采样工作来改善结果。
用于生成样品数量的模型选择
过采样后的分类对生成的少数样本数量高度敏感。平衡数据集很少是正确的选择,因为如果决策边界附近的正和负样本的密度大致相同,则大多数分类器的运行效率最高。如果正和负类的流形大约没有相同的大小,那么平衡数据集将无法实现这一目标。此外,在某些地区,它甚至可以恢复这种情况:如果少数族裔的多种阶级远小于多数阶级,那么平衡将使少数族裔阶层变成沿决策边界的本地环境中的多数群体。
解决方案是将模型选择应用于要生成的样品数量。几乎所有在`smote-variants`
软件包中实现的技术都有一个称为`proportion`
参数。该参数控制要生成多少个样本,即生成的少数样本的数量为`proportion*(N_maj - N_min)`
,也就是说,将比例参数设置为1将平衡数据集。强烈建议对诸如`proportion`
= 0.1、0.2、0.5、1.0、2.0、5.0之类的范围进行交叉验证模型选择。
样本使用
二进制过采样
import smote_variants as sv
import imbalanced_databases as imbd
dataset = imbd . load_iris0 ()
X , y = dataset [ 'data' ], dataset [ 'target' ]
oversampler = sv . distance_SMOTE ()
# X_samp and y_samp contain the oversampled dataset
X_samp , y_samp = oversampler . sample ( X , y )
多类过采样
import smote_variants as sv
import sklearn . datasets as datasets
dataset = datasets . load_wine ()
X , y = dataset [ 'data' ], dataset [ 'target' ]
oversampler = sv . MulticlassOversampling ( oversampler = 'distance_SMOTE' ,
oversampler_params = { 'random_state' : 5 })
# X_samp and y_samp contain the oversampled dataset
X_samp , y_samp = oversampler . sample ( X , y )
选择最佳的过度采样器
from sklearn . neighbors import KNeighborsClassifier
from sklearn . tree import DecisionTreeClassifier
import smote_variants as sv
import sklearn . datasets as datasets
dataset = datasets . load_breast_cancer ()
dataset = { 'data' : dataset [ 'data' ],
'target' : dataset [ 'target' ],
'name' : 'breast_cancer' }
classifiers = [( 'sklearn.neighbors' , 'KNeighborsClassifier' , {}),
( 'sklearn.tree' , 'DecisionTreeClassifier' , {})]
oversamplers = sv . queries . get_all_oversamplers ( n_quickest = 2 )
os_params = sv . queries . generate_parameter_combinations ( oversamplers ,
n_max_comb = 2 )
# samp_obj and cl_obj contain the oversampling and classifier objects which give the
# best performance together
samp_obj , cl_obj = sv . evaluation . model_selection ( dataset = dataset ,
oversamplers = os_params ,
classifiers = classifiers ,
validator_params = { 'n_splits' : 2 ,
'n_repeats' : 1 },
n_jobs = 5 )
# training the best techniques using the entire dataset
X_samp , y_samp = samp_obj . sample ( dataset [ 'data' ],
dataset [ 'target' ])
cl_obj . fit ( X_samp , y_samp )
与Sklearn Pipelines集成
import smote_variants as sv
import imblearn . datasets as imb_datasets
from sklearn . model_selection import train_test_split , GridSearchCV
from sklearn . pipeline import Pipeline
from sklearn . preprocessing import StandardScaler
from sklearn . neighbors import KNeighborsClassifier
libras = imb_datasets . fetch_datasets ()[ 'libras_move' ]
X , y = libras [ 'data' ], libras [ 'target' ]
oversampler = ( 'smote_variants' , 'MulticlassOversampling' ,
{ 'oversampler' : 'distance_SMOTE' , 'oversampler_params' : {}})
classifier = ( 'sklearn.neighbors' , 'KNeighborsClassifier' , {})
# Constructing a pipeline which contains oversampling and classification
# as the last step.
model = Pipeline ([( 'scale' , StandardScaler ()),
( 'clf' , sv . classifiers . OversamplingClassifier ( oversampler , classifier ))])
model . fit ( X , y )
与Sklearn网格搜索集成
import smote_variants as sv
import imblearn . datasets as imb_datasets
from sklearn . model_selection import train_test_split , GridSearchCV
from sklearn . pipeline import Pipeline
from sklearn . preprocessing import StandardScaler
from sklearn . neighbors import KNeighborsClassifier
libras = imb_datasets . fetch_datasets ()[ 'libras_move' ]
X , y = libras [ 'data' ], libras [ 'target' ]
oversampler = ( 'smote_variants' , 'MulticlassOversampling' ,
{ 'oversampler' : 'distance_SMOTE' , 'oversampler_params' : {}})
classifier = ( 'sklearn.neighbors' , 'KNeighborsClassifier' , {})
# Constructing a pipeline with oversampling and classification as the last step
model = Pipeline ([( 'scale' , StandardScaler ()),
( 'clf' , sv . classifiers . OversamplingClassifier ( oversampler , classifier ))])
param_grid = { 'clf__oversampler' :[( 'smote_variants' , 'distance_SMOTE' , { 'proportion' : 0.5 }),
( 'smote_variants' , 'distance_SMOTE' , { 'proportion' : 1.0 }),
( 'smote_variants' , 'distance_SMOTE' , { 'proportion' : 1.5 })]}
# Specifying the gridsearch for model selection
grid = GridSearchCV ( model ,
param_grid = param_grid ,
cv = 3 ,
n_jobs = 1 ,
verbose = 2 ,
scoring = 'accuracy' )
# Fitting the pipeline
grid . fit ( X , y )
贡献
请随时实施任何进一步的过采样技术,让我们一旦准备就绪,让我们立即讨论代码!
参考
[smote] | Chawla,NV和Bowyer,KW and Hall,Lo and Kegelmeyer,WP,“ {Smote}:合成少数民族过度抽样技术”,人工智能研究杂志,2002年,第321--357页 |
[smote_tomeklinks] | Batista,Gustavo EAPA和Prati,Ronaldo C.和Monard,Maria Carolina,“对平衡机器学习训练数据的几种行为的研究”,Sigkdd Explor。 Newsl。,2004年,第20--29页 |
[smote_enn] | Batista,Gustavo EAPA和Prati,Ronaldo C.和Monard,Maria Carolina,“对平衡机器学习训练数据的几种行为的研究”,Sigkdd Explor。 Newsl。,2004年,第20--29页 |
[BERESTLINE_SMOTE1] | Ha,“边缘线效果:一种不平衡的数据集学习中一种新的过采样方法”,《智能计算的进步》,2005年,第878---887页 |
[BEREDLINE_SMOTE2] | Ha,“边缘线效果:一种不平衡的数据集学习中一种新的过采样方法”,《智能计算的进步》,2005年,第878---887页 |
[Adasyn] | He,H。和Bai,Y。和Garcia,Ea and Li,S。,“ {adasyn}:不平衡学习的自适应合成抽样方法”,IJCNN论文集,2008年,第1322--1328页 |
[AHC] | Gilles Cohen和MélanieHilario和Hugo Sax以及StéphaneHugonnet和Antoine Geissbuhler,“从医学中监测的数据中学习,从不平衡的数据中学习”,《医学中的人工智能》,2006年,第7-18页,第7-18页 |
[lle_smote] | Wang,J。和Xu,M。和Wang,H。和Zhang,J。,“使用Smote算法和局部线性嵌入的不平衡数据分类”,2006年第8届国际信号处理会议,2006年,第2006页,第1页。 |
[decand_smote] | De la Calleja,J。和Fuentes,O。,“一种基于距离的数据集学习的基于距离的过度采样方法”,《二十世纪国际佛罗里达人工智能论文集》,2007年,第634---635页 |
[SMMO] | De La Calleja,Jorge和Fuentes,Olac和González,Jesús,“从错误分类的数据中选择少数群体进行过度采样”。 ,第21届国际佛罗里达人工智能研究协会会议论文集,2008年,第276-281页 |
[polynom_fit_smote] | Gazzah,S。和Neb,Neb,“基于多项式拟合数据集的新的过采样方法”,2008年第八届IAPR国际文档分析系统研讨会,2008年,第677-684页 |
[Stefanowski] | Stefanowski,Jerzy and Wilk,Szymon,“选择性的不平衡数据的选择性预处理以改善分类绩效”,第10届国际数据仓库和知识发现会议论文集,2008年,第283---292页 |
[adoms] | Tang,S。和Chen,S。,“综合少数民族班级的发电机制”,2008年生物医学信息技术与应用国际会议,2008年,第444-447页 |
[safe_level_smote] | Bunkhumpornpat,Chumphol和Sinapiromsaran,Krung和Lursinsap,Chidchanok,“安全级别的Smote:安全级别的合成少数民族过度采样技术来处理班级不平衡问题”,《第13届Pacific-Asia Advosity of Advosition of Inspedice of Inspedice of Insvelocy of Insvelocy of Focustai和数据挖掘,2009年,第475--482页 |
[msmote] | Hu,Shengguo和Liang,Yanfeng和Ma,Lintao和He,Ying,“ MSMOTE:培训数据不平衡时的分类绩效”,2009年第二届国际计算机科学与工程研讨会论文集 - 第02卷,2009年,第13页,第13页,第13页-17 |
[de_oversmpling] | Chen,L。和Cai,Z。和Chen,L。和Gu,Q。,“一种新型的差异进化群集混合杂种重新采样算法”,2010年第三次国际知识发现与数据挖掘会议,2010年,第三次。 81-85 |
[SMOBD] | CAO,Q。和Wang,S。,“基于数据密度和成本敏感的SVM应用过度采样技术”,2011年国际信息管理国际会议,创新管理与工业工程会议,2011年,第543-548页 |
[Sundo] | Cateni,S。和Colla,V。和Vannucci,M。,“针对工业和其他现实世界问题分类数据集分类的新颖重采样方法”,2011年第11届国际智能系统设计与应用国际会议,2011年,2011年,PP。 402-407 |
[msyn] | FA,“基于保证金的过采样方法,用于从数据集中学习”,知识发现和数据挖掘的进步,2011年,第309---320页 |
[svm_balance] | Farquad,Mah和Bose,Indranil,“使用支持向量机对不平衡的数据进行预处理”,Decis。支持系统,2012年,第226---233页 |
[trim_smote] | Puntumapo,“一种基于修剪的方法,用于搜索合成少数群体过采样的精确和广义区域”,《知识发现与数据挖掘的进步》,2012年,第371---382页 |
[smote_rsb] | Ramento,“ Smote-RSB*:一种基于过采样和使用Smote和粗糙集理论的高度不平衡数据集的混合预处理方法”,知识和信息系统,2012年,第245---265页 |
[prowsyn] | Baru,“ Prowsyn:邻近性加权合成的综合过采样技术,用于数据集学习”,知识发现和数据挖掘方面的进步,2013年,第317---328页 |
[sl_graph_smote] | Bunkhumpornpat,Chumpol和Subpaiboonkit,Sitthichoke,“合成少数民族过度采样技术的安全水平图”,第13届国际通信和信息技术研讨会,2013年,第570-575页 |
[nrsboundary_smote] | Feng,Hu和Hang,Li,“基于邻里粗糙集模型的新型边界过采样算法:Nrsboundary-Smote”,《工程学中的数学问题》,2013年,第10页。 |
[lvq_smote] | Munehiro Nakamura和Kajiwara和Atsushi Otsuka和Haruhiko Kimura,“ LVQ-Smote - 基于学习矢量量化的基于生物医学数据的综合少数群体”,Biodata Mining,2013年,2013年 |
[soi_cj] | Sánchez,AtlántidaI.和Morales,Eduardo和Gonzalez,耶稣,“使用聚类对实例的合成过度采样”,《国际人工智能工具杂志》,2013年,pp。 |
[玫瑰] | Menard,“使用不平衡数据的培训和评估分类规则”,数据挖掘和知识发现,2014年,第92---122页 |
[smote_out] | Fajri Koto,“ Smote-Out,Smote-Cosine和Selected-Smote:处理数据级别不平衡的增强策略”,2014年国际高级计算机科学和信息系统会议,2014年,2014年,第280-284页 |
[smote_cosine] | Fajri Koto,“ Smote-Out,Smote-Cosine和Selected-Smote:处理数据级别不平衡的增强策略”,2014年国际高级计算机科学和信息系统会议,2014年,2014年,第280-284页 |
[selected_smote] | Fajri Koto,“ Smote-Out,Smote-Cosine和Selected-Smote:处理数据级别不平衡的增强策略”,2014年国际高级计算机科学和信息系统会议,2014年,2014年,第280-284页 |
[ln_smote] | Maciejewski,T。和Stefanowski,J。,“用于采矿失衡数据的Smote的本地社区扩展”,2011年IEEE计算智能和数据挖掘研讨会(CIDM),2011年,第104-111页 |
[mwmote] | Barua,S。和Islam,MM和Yao,X。和Murase,K。,“ Mwmote - Mafyity加权少数民族的少数民族对数据集学习学习”,IEEE知识和数据工程交易,2014年,第405-425-425-425-425页 |
[PDFO] | Ming Gao和Xia Hong和Sheng Chen和Chris J. Harris和Emad Khalaf,“ PDFO:PDF估计基于不平衡两级问题的过度降采样”,NeuroComputing,2014年,第248-259页 |
[ipade_id] | VictoriaLópez和Isaac Triguero和CristóbalJ。Carmona和SalvadorGarcía和Francisco Herrera,“解决实例生成技术不平衡分类:iPade -ID:NeuroComputing,2014年,2014年,第15-28-28-28页 |
[rwo_smpling] | Zhang,Huaxzhang和Li,Mingfang,“ Rwo-Smpmpling:一种随机步行过采样的方法,以实现数据分类不平衡”,信息融合,2014年,pp。 |
[Neater] | IA的Almogahed,BA和Kakadiaris,“修整:使用非合作游戏理论过滤的数据过滤”,2014年第22届国际模式认可会议,2014年,第1371-1376页 |
[deago] | Bellinger,C。和Japkowicz,N。和Drummond,C。,“合成对先进放射性威胁检测的综合过采样”,2015年IEEE第14届机器学习与应用国际会议(ICMLA)(ICMLA),2015年,第948-953页 |
[Gazzah] | Gazzah,S。和Hechkel,A。和Essoukri Ben Amara,N。,“用于不平衡数据的混合抽样方法”,2015 IEEE第12届国际系统多委员会,Signals Devices(SSD15),2015年,2015年,第1-6页 |
[MCT] | Jiang,Liangxiao和Qiu,Chen和Li,Chaoqun,“一种新颖的成本敏感学习少数族裔克隆技术”,《国际模式识别与人工智能杂志》,2015年,第1551004页 |
[ADG] | Pourhabib,A。和Mallick,Bani K.和ding,Yu,“一种新颖的成本敏感学习少数克隆技术”,《机器学习研究杂志》,2015年,第2695---2724页 |
[smote_ipf] | JoséA。Sáez和JuliánLuengo和Jerzy Stefanowski和Francisco Herrera,“ Smote –IPF:解决通过过滤的重新采样方法在不平衡分类中解决嘈杂和边界示例问题” |
[kerneladasyn] | Tang,B。和He,H。,“内核:基于内核的自适应合成数据生成不平衡学习”,2015年IEEE进化计算大会(CEC),2015年,2015年,第664-671页 |
[MOT2LD] | XI,“基于低维空间中局部密度的综合少数族裔超采样方法”,高级应用程序的数据库系统,2015年,第3---18页 |
[v_synth] | Young,II,William A.和NYKL,Scott L.和Weckman,Gary R.和Chelberg,David M.,“使用Voronoi图在建模不平衡数据集时改善分类性能”,Neural Comput。 Appl。,2015年,第1041--1054页 |
[OUPS] | William A. Rivera和Petros Xanthopoulos,“一种先验合成的过度采样方法,用于提高分类数据集中的分类灵敏度”,具有应用的专家系统,2016年,第124-135页 |
[smote_d] | Torre,“ Smote-D Smote的确定性版本”,模式识别,2016年,第177--188页 |
[smote_pso] | Jair Cervantes和Farid Garcia-Lamont和Lisbeth Rodriguez以及AsdrúbalLópez和JoséRuizCastilla和Adrian Trueba,“基于PSO的基于PSO的SVM偏斜数据集的方法” |
[CURE_SMOTE] | M,“基于随机森林的特征选择和参数优化的治疗效率和混合算法”,BMC BioInformatics,2017年,第169页 |
[SOMO] | Georgios Douzas和Fernando Bacao,“自组织地图过采样(SOMO),用于数据集的数据集学习”,专家系统,适用于应用程序,2017年,第40-52页 |
[ISOMAP_HYBRID] | Gu, Qiong and Cai, Zhihua and Zhu, Li, "Classification of Imbalanced Data Sets by Using the Hybrid Re-sampling Algorithm Based on Isomap" , Proceedings of the 4th International Symposium on Advances in Computation and Intelligence, 2009, pp. 287- -296 |
[ce_smote] | Chen,S。和Guo,G。和Chen,L。,“一种基于集群合奏的新的过度采样方法”,2010年IEEE第24届高级信息网络和应用程序研讨会,2010年,2010年,第599-604页 |
[edge_det_smote] | Kang,Y。and Won,S。,“对班级不平衡学习的过采样技术的重量决策算法”,ICCAS 2010,2010,第182-186页 |
[CBSO] | Baru,“一种新颖的合成少数民族过采样技术,用于数据集学习”,《神经信息处理》,2011年,第735---744页 |
[dbsmote] | Bunkhumpornpa,“ DBSmote:基于密度的合成少数群体过度采样技术”,Applied Intelligence,2012年,第664---684页 |
[ASMOBD] | Senzhang Wang和Zhoujun Li和Wenhan Chao和Qinghua Cao,“采用基于数据密度和成本敏感SVM的自适应过度采样技术来实现不平衡学习”,2012年国际神经网络联合会议(IJCNN),2012年,2012年,第1页,第1页,第1页。 -8 |
[汇编_smote] | Zhou,B。和Yang,C。和Guo,H。和Hu,J。,“准线性SVM结合了组合的Smote,用于数据分类不平衡”,2013年国际神经网络联合会议(IJCNN),2013年,2013年,2013年, pp。1-7 |
[sdsmote] | Li,K。和Zhang,W。和Lu,Q。和Fang,X。 ,第34-38页 |
[dsmote] | Mahmoudi,S。和Moradi,P。和Akhlaghian,F。和Moradi,R。,“用于不平衡数据分类的过度采样技术中的多样性和可分离指标”,2014年第4届计算机和知识工程国际会议(ICCKE),2014年,2014年,第152-158页 |
[g_smote] | Sandhan,T。和Choi,JY,“通过部分指导的模式识别的混合抽样处理不平衡数据集”,2014年第22届国际模式识别会议,2014年,第1449-1453页 |
[nt_smote] | Xu,YH和Li,H。和Le,LP和Tian,XY,“邻里三角综合少数民族过度采样技术,用于对中国旅游和酒店公司的小样本的不平衡预测”,2014年第七次国际国际联合会议上的计算科学和优化联合会议,2014年,第534-538页 |
[Lee] | Lee,Jaedong和Kim,Noo-Ri和Lee,Jee-Hyong,“一种对拒绝班级学习的过度采样技术”,第9届无处不在信息管理与传播国际会议论文集,2015年,第102:1,第102:1 -102:6 |
[间谍] | Dang,XT和Tran,DH和Hirose,O。和Satou,K。,“间谍:一种新颖的重新采样方法,用于改善数据不平衡数据中的分类性能”,2015年第七届国际知识与系统工程会议(KSE),2015年,PP,PP 280-285 |
[smote_psobat] | Li,J。和Fong,S。和Zhuang,Y。,“通过神经网络和决策树优化Smote”,2015年第三次国际计算与商业智能研讨会(ISCBI),2015年,第26-32页 |
[MDO] | Abdi,L。和Hashemi,S。,“通过过度采样技术来解决多级失衡问题”,IEEE知识和数据工程交易,2016年,第238-251页 |
[Random_smote] | Don,“一种新的过度采样方法:从不平衡数据集中学习的随机效果”,知识科学,2011年,第343---352页 |
[Ismote] | L,“一种新的组合抽样方法,用于数据不平衡的数据”,2013年中国智能自动化会议论文集,2013年,第547---554页 |
[vis_rst] | Borowsk,“数据分类不平衡:一种新颖的重采样方法,结合了多功能改进的Smote和粗糙集”,计算机信息系统与工业管理,2016年,第31--42页 |
[Gasmote] | Jian,“基于遗传算法的不平衡数据分类的新颖算法改进了Smote”,《阿拉伯科学与工程杂志》,2016年,第3255---3266页 |
[A_SUWO] | Iman Nekooeimehr和Susana K. Lai-Yuen,“适应不平衡数据集的自适应半无调的加权过采样(A-SUWO)”,具有应用的专家系统,2016年,第405-416页 |
[smote_frst_2t] | Ramento,“用于诊断高压断路器维护诊断的模糊不平衡学习:Smote-FRST-2-2T算法”,《人工智能的工程应用》,2016年,第134-139页 |
[and_smote] | Yun,Jaesub和Ha,Jihyun和Lee,Jong-Seok,“ Smote中的邻里大小的自动确定”,第10届无处不在信息管理与传播国际会议论文集,2016年,第100:1-100:8页 |
[NRAS] | William A. Rivera,“降低降噪的先验合成数据集的综合过度采样”,信息科学,2017年,第146-161页 |
[AMSCO] | Jinyan Li和Simon Fong和Raymond K. Wong和Victor W. Chu,“自适应多目标群融合了不平衡的数据分类”,信息融合,2018年,第1-24页 |
[NDO_SMPLING] | Zhang,L。和Wang,W。,“与信用数据的班级不平衡学习的重新采样方法”,2011年国际信息技术会议,计算机工程和管理科学会议,2011年,第393-397页 |
[DSRBF] | FranciscoFernández-Navarro和CésarHervás-Martínez和PedroAntonioGutiérrez,“基于对多级问题的敏感性的动态过度采样程序”,模式识别,2011年,2011年,第1821-1833页 |
[Gaussian_smote] | Hansoo Lee和Jonggeun Kim和Sungshin Kim,“基于高斯的Smote算法,用于解决偏斜的班级分布”,int。 J. Fuzzy逻辑和智能系统,2017年,第229-234页 |
[kmeans_smote] | Georgios Douzas和Fernando Bacao和Felix最后,“通过基于K -Means and Smote的启发式过度采样方法改善学习不平衡的学习”,信息科学,2018年,第1-20页 |
[hasperised_smote] | Hu,Jun和He,Xue和Yu,Dong-Jun和Yang和Yang,Xi-Bei和Yang和Yang,Jing-Yu和Shen,Hong-Bin,“一种新的监督过度采样算法,并将其应用于蛋白质核苷酸结合的残基预测” ,Plos One,2014年,第1-10页 |
[sn_smote] | GARC {'i},“周围基于邻里的Smote,用于学习不平衡的数据集”,人工智能的进度,2012年,第347---362页 |
[CCR] | Koziarski,Michał和Wozniak,Michal,“ CCR:不平衡数据分类的合并清洁和重新采样算法”,《国际应用数学与计算机科学杂志》,2017年,第727-736页 |
[ANS] | Siriseriwan,W和Sinapiromsaran,Krung,“自适应邻居合成少数族裔少数派在1NN吹车处理下”,Songklanakarin科学技术杂志,2017年,第565-576页 |
[cluster_smote] | Cieslak,DA和Chawla,NV和Striegel,A。,“在网络入侵数据集中打击不平衡”,2006年IEEE国际粒状计算会议,2006年,第732-737页 |
[SYMPROD] | I. Kunakorntum和W. Hinthong和P. Phunchongharn,“基于概率分布(Symprod)的合成少数派(Symprod)对数据集的过度降采样”,IEEE Access,2020年,2020年,第114692-114692-1147044页 |
[smotewb] | Sağlam,F。和Cengiz,马萨诸塞州,“一种基于Smote的新型重采样技术槽噪声检测和增强程序”,具有应用的专家系统,2022年,第117023页 |