
_ _ _
___ _ __ ___ ___ | | _ ___ __ __ __ _ _ __ (_) __ _ _ __ | | _ ___
/ __ || '_ `_ / _ | __ | / _ _____ / // _` || '__ || | / _` || '_ | __ |/ __ |
__ | | | | | || (_) || | _ | __ /| _____ | V /| (_ | || | || (_ || | | || | _ __
| ___/| _ | | _ | | _ | ___/ __ | ___ | _/ __, _ || _ | | _ | __, _ || _ | | _ | __ || ___/
Variantes de Smote para el aprendizaje desequilibrado
Últimas noticias
- El lanzamiento 1.0.0 está fuera
- Técnicas de bajo muestreo agregado
- Smotewb agregado, gracias a @szghlm
- Implementaciones vectorizadas para la mayoría de las técnicas para aumentar el rendimiento
- un kit de herramientas de evaluación y selección de modelos refactorizada y mejorada
- Cobertura de prueba 100%
- 10.0 Pep8 Conformancia (por Pylint)
- Polynom_Fit_Smote Split a 4 técnicas diferentes
- Symprod agregó como el 86 ° Ampler implementado, gracias a @Intouchkun
Introducción
El paquete implementa 86 variantes de la técnica de sobremuestreo de minorías sintéticas (SMOTE). Además de las implementaciones, se suministra un marco de selección de modelos fácil de usar para permitir la evaluación rápida de las técnicas de sobremuestreo en conjuntos de datos invisibles.
Las técnicas implementadas: [SMOTE], [SMOTE_TOMEKLINKS], [SMOTE_ENN], [Borderline_Smote1], [Borderline_Smote2], [Adasyn], [AHC], [LLE_SMOTE], [Distance_Smote], [Smmo], [Polynom_Fit_Smote], [Stefanowski ], [ADOMS], [SAFE_LEVEL_SMOTE], [MSMOTE], [de_oversampling], [smobd], [sundo], [msyn], [svm_balance], [trim_smote], [smote_rsb], [prosyn], [sl_graph_smote], [NRSBoundary_Smote], [lvq_smote], [soi_cj], [rosa], [smote_out], [smote_cosine], [seleccionado_smote], [ln_smote], [mwmote], [pdfos], [ipade_id], [rwo_sampling], [nater ], [Deago], [gazzah], [mct], [adg], [smote_ipf], [kerneladasyn], [mot2ld], [v_synth], [oUPS], [smote_d], [smote_pso], [cure_smote], [Somo], [isomap_hybrid], [ce_smote], [edge_det_smote], [cbso], [e_smote], [dbsmote], [asmobd], [ensamblado_smote], [sdsmote], [dsmote], [g_smote], [nt_smote ], [Lee], [espía], [smote_psobat], [mdo], [random_smote], [ismote], [vis_rst], [gasmote], [a_suwo], [smote_frst_2t], [y_smote], [nras],, [Amsco], [SSO], [ndo_sampling], [dsrbf], [gaussian_smote], [kmeans_smote], [supervisado_smote], [sn_smote], [ccr], [ans], [cluster_smote], [symprod], [smotewbbbbbbbb ]
Comparación y evaluación
Para una comparación y evaluación detalladas de todas las técnicas implementadas, consulte Link_TO_Comparison_Paper
Citación
Si usa este paquete en su investigación, considere citar los documentos a continuación.
Preimpresión describiendo el paquete Consulte Link_to_package_paper
Bibtex para el paquete:
@article { smote-variants ,
author = { Gy"orgy Kov'acs } ,
title = { smote-variants: a Python Implementation of 85 Minority Oversampling Techniques } ,
journal = { Neurocomputing } ,
note = { (IF-2019=4.07) } ,
volume = { 366 } ,
pages = { 352--354 } ,
year = { 2019 } ,
group = { journal } ,
code = { https://github.com/analyticalmindsltd/smote_variants } ,
doi = { 10.1016/j.neucom.2019.06.100 }
}
Para la preimpresión del estudio comparativo, ver LINK_TO_EVALUACION_PAPER
Bibtex para la comparación y evaluación:
@article { smote-comparison ,
author = { Gy"orgy Kov'acs } ,
title = { An empirical comparison and evaluation of minority oversampling techniques on a large number of imbalanced datasets } ,
journal = { Applied Soft Computing } ,
note = { (IF-2019=4.873) } ,
volume = { 83 } ,
pages = { 105662 } ,
year = { 2019 } ,
link = { https://www.sciencedirect.com/science/article/pii/S1568494619304429 } ,
group = { journal } ,
code = { https://github.com/analyticalmindsltd/smote_variants } ,
doi = { 10.1016/j.asoc.2019.105662 }
}
Instalación
El paquete se puede clonar desde GitHub de la manera habitual, y la última versión estable también está disponible en el repositorio de Pypi:
pip install smote-variants
Documentación
- Para una documentación detallada, consulte http://smote-variants.readthedocs.io.
- Para un tutorial de YouTube, consulte https://www.youtube.com/watch?v=GSK7AKQPM60
Mejores prácticas
Normalización/estandarización/escala/selección de características
La mayoría de las técnicas de sobremuestreo operan en el espacio euclidiano implicados por los atributos. Por lo tanto, es extremadamente importante normalizar/escalar los atributos adecuadamente. Sin conocimiento sobre la importancia de los atributos, la normalización/estandarización es un buen primer intento. Tener algún conocimiento de dominio o importancia del atributo de la clasificación de bootstrap, la escala de los rangos de atributos de acuerdo con su importancia también es razonable. Alternativamente, la selección de subconjuntos de características también podría mejorar los resultados mediante el trabajo de sobremuestreo en el subespacio más adecuado.
Selección de modelo para el número de muestras que se generan
La clasificación después del sobremuestreo es altamente sensible al número de muestras minoritarias que se generan. Equilibrar el conjunto de datos rara vez es la opción correcta, ya que la mayoría de los clasificadores operan de manera más eficiente si la densidad de muestras positivas y negativas cerca del límite de decisión es aproximadamente la misma. Si los colectores de las clases positivas y negativas no tienen el mismo tamaño aproximadamente, equilibrar el conjunto de datos no puede lograr esto. Además, en ciertas regiones incluso puede revertir la situación: si el colector de la clase minoritaria es mucho más pequeño que el de la clase mayoritaria, el equilibrio convertirá a la clase minoritaria en la mayoría en los entornos locales a lo largo del límite de decisión.
La solución es aplicar la selección del modelo para el número de muestras que se generan. Casi todas las técnicas implementadas en el paquete `smote-variants`
tienen un parámetro llamado `proportion`
. Este parámetro controla cuántas muestras generar, a saber, el número de muestras minoritarias generadas es `proportion*(N_maj - N_min)`
, es decir, establecer el parámetro de proporción en 1 equilibrará el conjunto de datos. Se recomienda llevar a cabo la selección de modelos validados cruzados para un rango como `proportion`
= 0.1, 0.2, 0.5, 1.0, 2.0, 5.0.
Uso de muestra
Sobremuestreo binario
import smote_variants as sv
import imbalanced_databases as imbd
dataset = imbd . load_iris0 ()
X , y = dataset [ 'data' ], dataset [ 'target' ]
oversampler = sv . distance_SMOTE ()
# X_samp and y_samp contain the oversampled dataset
X_samp , y_samp = oversampler . sample ( X , y )
Sobremuestreo multiclase
import smote_variants as sv
import sklearn . datasets as datasets
dataset = datasets . load_wine ()
X , y = dataset [ 'data' ], dataset [ 'target' ]
oversampler = sv . MulticlassOversampling ( oversampler = 'distance_SMOTE' ,
oversampler_params = { 'random_state' : 5 })
# X_samp and y_samp contain the oversampled dataset
X_samp , y_samp = oversampler . sample ( X , y )
Selección del mejor amortiguador
from sklearn . neighbors import KNeighborsClassifier
from sklearn . tree import DecisionTreeClassifier
import smote_variants as sv
import sklearn . datasets as datasets
dataset = datasets . load_breast_cancer ()
dataset = { 'data' : dataset [ 'data' ],
'target' : dataset [ 'target' ],
'name' : 'breast_cancer' }
classifiers = [( 'sklearn.neighbors' , 'KNeighborsClassifier' , {}),
( 'sklearn.tree' , 'DecisionTreeClassifier' , {})]
oversamplers = sv . queries . get_all_oversamplers ( n_quickest = 2 )
os_params = sv . queries . generate_parameter_combinations ( oversamplers ,
n_max_comb = 2 )
# samp_obj and cl_obj contain the oversampling and classifier objects which give the
# best performance together
samp_obj , cl_obj = sv . evaluation . model_selection ( dataset = dataset ,
oversamplers = os_params ,
classifiers = classifiers ,
validator_params = { 'n_splits' : 2 ,
'n_repeats' : 1 },
n_jobs = 5 )
# training the best techniques using the entire dataset
X_samp , y_samp = samp_obj . sample ( dataset [ 'data' ],
dataset [ 'target' ])
cl_obj . fit ( X_samp , y_samp )
Integración con Sklearn Pipelines
import smote_variants as sv
import imblearn . datasets as imb_datasets
from sklearn . model_selection import train_test_split , GridSearchCV
from sklearn . pipeline import Pipeline
from sklearn . preprocessing import StandardScaler
from sklearn . neighbors import KNeighborsClassifier
libras = imb_datasets . fetch_datasets ()[ 'libras_move' ]
X , y = libras [ 'data' ], libras [ 'target' ]
oversampler = ( 'smote_variants' , 'MulticlassOversampling' ,
{ 'oversampler' : 'distance_SMOTE' , 'oversampler_params' : {}})
classifier = ( 'sklearn.neighbors' , 'KNeighborsClassifier' , {})
# Constructing a pipeline which contains oversampling and classification
# as the last step.
model = Pipeline ([( 'scale' , StandardScaler ()),
( 'clf' , sv . classifiers . OversamplingClassifier ( oversampler , classifier ))])
model . fit ( X , y )
Integración con Sklearn Grid Search
import smote_variants as sv
import imblearn . datasets as imb_datasets
from sklearn . model_selection import train_test_split , GridSearchCV
from sklearn . pipeline import Pipeline
from sklearn . preprocessing import StandardScaler
from sklearn . neighbors import KNeighborsClassifier
libras = imb_datasets . fetch_datasets ()[ 'libras_move' ]
X , y = libras [ 'data' ], libras [ 'target' ]
oversampler = ( 'smote_variants' , 'MulticlassOversampling' ,
{ 'oversampler' : 'distance_SMOTE' , 'oversampler_params' : {}})
classifier = ( 'sklearn.neighbors' , 'KNeighborsClassifier' , {})
# Constructing a pipeline with oversampling and classification as the last step
model = Pipeline ([( 'scale' , StandardScaler ()),
( 'clf' , sv . classifiers . OversamplingClassifier ( oversampler , classifier ))])
param_grid = { 'clf__oversampler' :[( 'smote_variants' , 'distance_SMOTE' , { 'proportion' : 0.5 }),
( 'smote_variants' , 'distance_SMOTE' , { 'proportion' : 1.0 }),
( 'smote_variants' , 'distance_SMOTE' , { 'proportion' : 1.5 })]}
# Specifying the gridsearch for model selection
grid = GridSearchCV ( model ,
param_grid = param_grid ,
cv = 3 ,
n_jobs = 1 ,
verbose = 2 ,
scoring = 'accuracy' )
# Fitting the pipeline
grid . fit ( X , y )
Contribución
¡Siéntase libre de implementar cualquier técnica de sobremuestreo adicional y discutamos los códigos tan pronto como la solicitud de extracción esté lista!
Referencias
[Smote] | Chawla, NV y Bowyer, KW y Hall, Lo y Kegelmeyer, WP, "{Smote}: Técnica de exompuesto de minorías sintéticas", Journal of Artificial Intelligence Research, 2002, pp. 321-357 |
[SMOTE_TOMEKLINKS] | Batista, Gustavo Eapa y Prati, Ronaldo C. y Monard, Maria Carolina, "Un estudio del comportamiento de varios métodos para equilibrar los datos de entrenamiento de aprendizaje automático", Sigkdd Explor. Newsl., 2004, pp. 20--29 |
[Smote_enn] | Batista, Gustavo Eapa y Prati, Ronaldo C. y Monard, Maria Carolina, "Un estudio del comportamiento de varios métodos para equilibrar los datos de entrenamiento de aprendizaje automático", Sigkdd Explor. Newsl., 2004, pp. 20--29 |
[Borderline_Smote1] | HA, "Borderline-Smote: un nuevo método de exhibición en exceso en el aprendizaje de los conjuntos de datos desequilibrados", Avances en la computación inteligente, 2005, pp. 878-887 |
[Borderline_Smote2] | HA, "Borderline-Smote: un nuevo método de exhibición en exceso en el aprendizaje de los conjuntos de datos desequilibrados", Avances en la computación inteligente, 2005, pp. 878-887 |
[Adasyn] | He, H. y Bai, Y. y García, EA y Li, S., "{Adasyn}: enfoque de muestreo sintético adaptativo para el aprendizaje desequilibrado", Actas de Ijcnn, 2008, pp. 1322-1328 |
[AHC] | Gilles Cohen y Mélanie Hilario y Hugo Sax y Stéphane Hugonnet y Antoine Geissbuhler, "Aprendiendo de los datos desequilibrados en vigilancia de la infección nosocomial", Inteligencia Artificial en Medicina, 2006, pp. 7 - 18 |
[Lle_smote] | Wang, J. y Xu, M. y Wang, H. y Zhang, J., "Clasificación de datos desequilibrados mediante el uso del algoritmo SMOTE y la incrustación lineal localmente", 2006 8th International Conference on Signal Processing, 2006, pp. |
[Distancia_smote] | De la Calleja, J. y Fuentes, O., "Un método de exompuesto de exompuesto de distancia a distancia para aprender de conjuntos de datos desequilibrados", Actas del vigésimo Internacional Florida Artificial Intelligence, 2007, pp. 634-635 |
[SMMO] | De la Calleja, Jorge y Fuentes, Olac y González, Jesús, "Selección de ejemplos minoritarios de datos mal clasificados para exhibir en exceso". , Actas de la vigésima primera conferencia internacional de la Sociedad Internacional de Investigación de Inteligencia Artificial de Florida, 2008, pp. 276-281 |
[Polynom_Fit_Smote] | Gazzah, S. y Amara, Neb, "Nuevos enfoques de sobremuestreo basados en el ajuste polinomial para conjuntos de datos desequilibrados", 2008 El octavo Taller Internacional de IAPR sobre Sistemas de Análisis de Documentos, 2008, pp. 677-684 |
[Stefanowski] | Stefanowski, Jerzy y Wilk, Szymon, "Preprocesamiento selectivo de datos desequilibrados para mejorar el rendimiento de la clasificación", Actas de la décima conferencia internacional sobre almacenamiento de datos y descubrimiento de conocimiento, 2008, pp. 283-292 |
[Adoms] | Tang, S. y Chen, S., "El mecanismo de generación de ejemplos de clase de minorías sintéticas", Conferencia Internacional de 2008 sobre tecnología de la información y aplicaciones en Biomedicine, 2008, pp. 444-447 |
[SAFE_LEVEL_SMOTE] | Bunkhumpornpat, Chumphol y Sinapiromsaran, Krung y Lursinsap, Chidchanok, "Técnica de exhibición minoritaria sintética de niveles seguros: Actas de la 13ª Conferencia del Pacífico-Asia sobre el descubrimiento de conocimiento en el descubrimiento y Data Mining, 2009, pp. 475-482 |
[Msmote] | Hu, Shengguo y Liang, Yanfeng y MA, Lintao y He, Ying, "Msmote: Mejorar el rendimiento de la clasificación cuando los datos de capacitación se desequilibran", Actas del Segundo Taller Internacional de Ciencias de la Computación e Ingeniería - Volumen 02, 2009, pp. 13 --17 |
[De_oversampling] | Chen, L. y Cai, Z. y Chen, L. y Gu, Q., "Un nuevo algoritmo de remuestreo híbrido de evolución diferencial en evolución en los conjuntos de datos desequilibrados", 2010 Tercera Conferencia Internacional sobre Descubrimiento de Conocimientos y Minería de Datos, 2010, pp. 81-85 |
[Smobd] | Cao, Q. y Wang, S., "Aplicación de la técnica de exompuesto de muestreo basada en la densidad de datos y SVM sensible a los costos al aprendizaje desequilibrado", Conferencia internacional de 2011 sobre gestión de la información, gestión de la innovación e ingeniería industrial, 2011, pp. 543-548 |
[Sundo] | Cateni, S. y Cola, V. y Vannucci, M., "Nuevo método de remuestreo para la clasificación de conjuntos de datos desequilibrados para problemas industriales y de mundo real", 11ª Conferencia Internacional de Diseño y Aplicaciones de Sistemas Inteligentes, 2011, PP. 402-407 |
[Msyn] | FA, "Método de exompuesto de margen para aprender de conjuntos de datos desequilibrados", Avances en el descubrimiento de conocimiento y la minería de datos, 2011, pp. 309-320 |
[Svm_balance] | Farquad, Mah y Bose, Indranil, "preprocesamiento de datos desequilibrados utilizando la máquina de vectores de soporte", Decis. Support Syst., 2012, pp. 226-233 |
[TRIM_SMOTE] | PuntuMapo, "Un enfoque basado en la poda para buscar una región precisa y generalizada para el exceso de muestreo de minorías sintéticas", Avances en el descubrimiento de conocimiento y la minería de datos, 2012, pp. 371-382 |
[SMOTE_RSB] | Ramento, "Smote-RSB*: un enfoque de preprocesamiento híbrido basado en sobremuestreo y submuestreo para conjuntos de datos de alto desequilibrio utilizando la teoría de conjuntos de smote y rugos", Sistemas de conocimiento e información, 2012, pp. 245-265 |
[ProWSYN] | Baru, "Prosyn: Técnica de sobremuestramiento sintético ponderada por proximidad para el aprendizaje de conjuntos de datos desequilibrados", Avances en el descubrimiento de conocimiento y la minería de datos, 2013, pp. 317-328 |
[SL_GRAPH_SMOTE] | Bunkhumpornpat, Chumpol y Subpaiboonkit, Sitthhoke, "Gráfico de nivel seguro para técnicas de exompuesto de minorías sintéticas", 13º Simposio Internacional sobre Comunicaciones y Tecnologías de la Información, 2013, pp. 570-575 |
[NRSBoundary_Smote] | Feng, Hu y Hang, Li, "Un nuevo algoritmo de sobremuestreo de límites basado en el modelo de set rugoso del vecindario: nrsboundary-smote", problemas matemáticos en ingeniería, 2013, pp. 10 |
[Lvq_smote] | Munehiro Nakamura y Yusuke Kajiwara y Atsushi Otsuka y Haruhiko Kimura, "LVQ-Smote-Minoría sintética basada en cuantización de vectores de aprendizaje sobre la técnica de muestreo para datos biomédicos", Biodata Mining, 2013 |
[Soi_cj] | Sánchez, Atlántida I. y Morales, Eduardo y González, Jesús, "sobremuestreo sintético de instancias utilizando la agrupación", International Journal of Artificial Intelligence Tools, 2013, pp. |
[ROSA] | Menard, "Capacitación y evaluación de reglas de clasificación con datos desequilibrados", Minería de datos y descubrimiento de conocimiento, 2014, pp. 92-122 |
[Smote_out] | Fajri Koto, "Smote-Out, Smote-Cosine y Selected-Smote: una estrategia de mejora para manejar el desequilibrio en el nivel de datos", Conferencia Internacional 2014 sobre Sistema Avanzado de Informática e Información, 2014, pp. 280-284 |
[Smote_cosine] | Fajri Koto, "Smote-Out, Smote-Cosine y Selected-Smote: una estrategia de mejora para manejar el desequilibrio en el nivel de datos", Conferencia Internacional 2014 sobre Sistema Avanzado de Informática e Información, 2014, pp. 280-284 |
[Selected_Smote] | Fajri Koto, "Smote-Out, Smote-Cosine y Selected-Smote: una estrategia de mejora para manejar el desequilibrio en el nivel de datos", Conferencia Internacional 2014 sobre Sistema Avanzado de Informática e Información, 2014, pp. 280-284 |
[Ln_smote] | Maciejewski, T. y Stefanowski, J., "Extensión local del vecindario de Smote para la minería de datos desequilibrados", 2011 IEEE Simposio sobre inteligencia computacional y minería de datos (CIDM), 2011, pp. 104-111 |
[Mwmote] | Barua, S. e Islam, MM y Yao, X. y Murase, K., "MWMOTE-Técnica de sobremuestramiento minoritario ponderada de la mayoría para el aprendizaje del conjunto de datos desequilibrados", IEEE Transacciones sobre Ingeniería de Conocimientos e Datos, 2014, pp. 405-425 |
[PDFOS] | Ming Gao y Xia Hong y Sheng Chen y Chris J. Harris y Emad Khalaf, "PDFOS: estimación en PDF basado en exhibición para problemas desequilibrados de dos clases", Neurocomputing, 2014, pp. 248-259 |
[Ipade_id] | Victoria López e Isaac Triguero e Cristóbal J. Carmona y Salvador García y Francisco Herrera, "Abordando la clasificación desequilibrada con técnicas de generación de instancias: ID ipade", Neurocomputing, 2014, pp. 15 - 28 28 |
[Rwo_sampling] | Zhang, Huaxzhang y Li, Mingfang, "Rwo-Sample: un enfoque aleatorio de exhibición de caminata para la clasificación de datos desequilibrados", Information Fusion, 2014, pp. |
[Niater] | Almogahed, BA y Kakadiaris, IA, "Negro: Filtrado de datos demasiado muestreados utilizando la teoría de juegos no cooperativas", 2014 22ª Conferencia Internacional sobre Reconocimiento de Patrones, 2014, pp. 1371-1376 |
[Deago] | Bellinger, C. y Japkowicz, N. y Drummond, C., "Sincuestra sintética para detección de amenazas radiactivas avanzadas", 2015 14ª Conferencia Internacional de Aprendizaje y Aplicaciones para Máineas (ICMLA), 2015, pp. 948-953 |
[Gazzah] | Gazzah, S. y Hechkel, A. y Essoukri Ben Amara, N., "Un método de muestreo híbrido para datos desequilibrados", 2015 IEEE 12th International Multi-Conference on Systems, Signals Devices (SSD15), 2015, pp. 1-6 |
[MCT] | Jiang, Liangxiao y Qiu, Chen y Li, Chaoqun, "Una nueva técnica de clonación minoritaria para el aprendizaje sensible a los costos", Revista Internacional de Reconocimiento de Patrones e Inteligencia Artificial, 2015, pp. 1551004 |
[ADG] | Pourhabib, A. y Mallick, Bani K. y Ding, Yu, "Una nueva técnica de clonación minoritaria para el aprendizaje sensible a los costos", Journal of Machine Learning Research, 2015, pp. 2695-2724 |
[SMOTE_IPF] | José A. Sáez y Julián Luengo y Jerzy Stefanowski y Francisco Herrera, "Smote - IPF: abordar el problema de los ejemplos ruidosos y límite en la clasificación desequilibrada por un método de reamemplamiento con filtrado", Ciencias de la información, 2015, pp. 184 - 203 |
[Kerneladasyn] | Tang, B. y He, H., "Kerneladasyn: Generación de datos sintéticos adaptativos basados en el núcleo para el aprendizaje desequilibrado", 2015 IEEE Congress on Evolutionary Computation (CEC), 2015, pp. 664-671 |
[MOT2LD] | XI, "Un método de sobremuestreo minoritario sintético basado en densidades locales en un espacio de baja dimensión para el aprendizaje desequilibrado", Sistemas de bases de datos para aplicaciones avanzadas, 2015, pp. 3-18 |
[V_synth] | Young, II, William A. y Nykl, Scott L. y Weckman, Gary R. y Chelberg, David M., "Uso de diagramas de Voronoi para mejorar el rendimiento de la clasificación al modelar conjuntos de datos desequilibrados", Computación neuronal. Appl., 2015, pp. 1041-1054 |
[OUPS] | William A. Rivera y Petros Xanthopoulos, "Métodos de exompuesto sintéticos a priori para aumentar la sensibilidad de clasificación en conjuntos de datos desequilibrados", Sistemas expertos con aplicaciones, 2016, pp. 124 - 135 |
[Smote_d] | Torre, "Smote-D Una versión determinista de Smote", Reconocimiento de patrones, 2016, pp. 177-188 |
[SMOTE_PSO] | Jair Cervantes y Farid Garcia-Lamont y Lisbeth Rodríguez y Asdrúbal López y José Ruiz Castilla y Adrian TrueBa, "Método basado en PSO para la clasificación SVM en conjuntos de datos sesgados", Neurocomputación, 2017, pp. 187-197-197 |
[Cure_smote] | M, "Algoritmo de curado y algoritmo híbrido para la selección de características y la optimización de parámetros basados en bosques aleatorios", BMC Bioinformatics, 2017, pp. 169 |
[Somo] | Georgios Douzas y Fernando Bacao, "El sobremuestreo de mapa autoorganizantes (SOMO) para el aprendizaje de conjuntos de datos desequilibrados", Expert Systems with Aplications, 2017, pp. 40 - 52 |
[Isomap_hybrid] | Gu, Qiong y Cai, Zhihua y Zhu, Li, "Clasificación de conjuntos de datos desequilibrados mediante el uso del algoritmo de reamplio híbrido basado en Isomap", Actas del 4º Simposio internacional sobre avances en computación e inteligencia, 2009, pp. 287- -296 |
[Ce_smote] | Chen, S. y Guo, G. y Chen, L., "Un nuevo método de exompuesto de muestreo basado en conjuntos de clúster", 2010 IEEE 24ª Conferencia Internacional sobre Talleres de Redes y Aplicaciones de Información Avanzada, 2010, pp. 599-604 |
[Edge_Det_Smote] | Kang, Y. y Won, S., "Algoritmo de decisión de peso para la técnica de sobremuestreo en el aprendizaje de la clase", ICCAS 2010, 2010, pp. 182-186 |
[CBSO] | Baru, "Una nueva técnica de sobremuestreo de minorías sintéticas para el aprendizaje de conjuntos de datos desequilibrados", Procesamiento de información neural, 2011, pp. 735-744 |
[E_smote] | Deepa, T. y Punithavalli, M., "Una técnica e-smote para la selección de características en el conjunto de datos desequilibrado de alta dimensión", 2011 3rd International Conference on Electronics Computer Technology, 2011, pp. 322-324 |
[Dbsmote] | Bunkhumpornpa, "DBSMOTE: técnica de exompuesto de minorías sintéticas basadas en densidad", Applied Intelligence, 2012, pp. 664-684 |
[Asmobd] | Senzhang Wang y Zhoujun Li y Wenhan Chao y Qinghua Cao, "Aplicando la técnica de exhibición adaptativa basada en la densidad de datos y la SVM sensible a los costos al aprendizaje desequilibrado", la Conferencia Conjunta Internacional de 2012 sobre redes neuronales (IJCNN), 2012, pp. 1 -8 |
[Ensamblado_smote] | Zhou, B. y Yang, C. y Guo, H. y Hu, J., "Una SVM cuasi-lineal combinada con Smote ensamblado para la clasificación de datos desequilibrados", la Conferencia Internacional Conjunta 2013 sobre redes neuronales (IJCNN), 2013, pp. 1-7 |
[Sdsmote] | Li, K. y Zhang, W. y Lu, Q. y Fang, X., "Un método de clasificación de datos desequilibrado mejorado basado en el título de soporte", Conferencia internacional de 2014 sobre identificación, información y conocimiento en Internet de las cosas, 2014 , págs. 34-38 |
[DSMO] | Mahmoudi, S. y Moradi, P. y Akhlaghian, F. y Moradi, R., "Diversidad y métricas separables en la técnica de muestreo excesivo para la clasificación de datos desequilibrados", 2014 4ª Conferencia Internacional sobre Ingeniería de Computación y Conocimiento (ICCKE), 2014 , págs. 152-158 |
[G_smote] | Sandhan, T. y Choi, JY, "Manejo de conjuntos de datos desequilibrados por muestreo híbrido parcialmente guiado para el reconocimiento de patrones", 2014 22ª Conferencia Internacional sobre Reconocimiento de Patrones, 2014, pp. 1449-1453 |
[Nt_smote] | Xu, Yh y Li, H. y Le, LP y Tian, XY, "Vecindario triangular sintético Técnica de muestreo de minorías para la predicción desequilibrada en pequeñas muestras de empresas de turismo y hospitalidad china", Séptima Conferencia Internacional de Ciencias Computacionales y Optimización , 2014, pp. 534-538 |
[Sotavento] | Lee, Jaedong y Kim, Noo-Ri y Lee, Jee-Hyong, "Una técnica de muestreo excesivo con rechazo para el aprendizaje de clase desequilibrado", Actas de la novena conferencia internacional sobre gestión y comunicación de la información ubicua, 2015, pp. 102: 1 --102: 6 |
[ESPIAR] | Dang, XT y Tran, DH y Hirose, O. y Satou, K., "Spy: un nuevo método de remodelación para mejorar el rendimiento de clasificación en datos desequilibrados", Séptima Conferencia Internacional de Conocimientos y Ingeniería de Sistemas (KSE), 2015, PP. . |
[SMOTE_PSOBAT] | Li, J. y Fong, S. y Zhuang, Y., "Optimización de metaheurística con red neuronal y árbol de decisión", 2015 3er Simposio Internacional sobre Inteligencia Computacional e Empresarial (ISCBI), 2015, pp. 26-32 |
[MDO] | Abdi, L. y Hashemi, S., "Combatir problemas desequilibrados de múltiples clases mediante técnicas de exhibición excesiva", Transacciones IEEE en Ingeniería de Conocimientos e Datos, 2016, pp. 238-251 |
[Random_Smote] | Don, "Un nuevo enfoque de exhibición exhaustivo: smote al azar para aprender de conjuntos de datos desequilibrados", Knowledge Scienc, 2011, pp. 343-352 |
[Ismote] | L, "Un nuevo método de muestreo de combinación para datos desequilibrados", Actas de la Conferencia de Automatización Inteligente China 2013, 2013, pp. 547-554 |
[Vis_rst] | Borowsk, "Clasificación de datos desequilibrados: un nuevo enfoque de reamemplamiento que combina semote mejorado versátil y conjuntos rugosos", Sistemas de información informática y gestión industrial, 2016, pp. 31-42 |
[Gasmote] | Jian, "Un algoritmo novedoso para la clasificación de datos de desequilibrio basada en el algoritmo genético mejorado", Arabian Journal for Science and Engineering, 2016, pp. 3255-3266 |
[A_SUWO] | Iman NekooeeMehr y Susana K. Lai-Yuen, "Semi-sobremuestreo (A-suwo) adaptativo semi-inesperado (A-Suwo) para conjuntos de datos desequilibrados", Sistemas expertos con aplicaciones, 2016, pp. 405-416 |
[SMOTE_FRST_2T] | Ramento, "Learning Fuzzy-Rough desequilibrado para el diagnóstico de mantenimiento del interruptor de circuito de alto voltaje: el algoritmo Smote-Frst-2T", Aplicaciones de ingeniería de inteligencia artificial, 2016, pp. 134-139 |
[Y_smote] | Yun, Jaesub y Ha, Jihyun y Lee, Jong-seok, "Determinación automática del tamaño del vecindario en Smote", Actas de la décima Conferencia Internacional sobre Gestión y Comunicación de la Información Ubítica, 2016, pp. 100: 1-100: 8: 8 |
[NRAS] | William A. Rivera, "Reducción de ruido a priori sintética en exceso de muestreo para conjuntos de datos desequilibrados de clase", Information Sciences, 2017, pp. 146 - 161 |
[Amsco] | Jinyan Li y Simon Fong y Raymond K. Wong y Victor W. Chu, "Fusión de enjambre de objetivos múltiples adaptativos para la clasificación de datos desequilibrados", Information Fusion, 2018, pp. 1 - 24 |
[SSO] | Ron, "Técnica de sobremuestramiento de sensibilidad estocástica para datos desequilibrados", Machine Learning and Cybernetics, 2014, pp. 161-171 |
[Ndo_sampling] | Zhang, L. y Wang, W., "Un método de volver a muestrear el aprendizaje de desequilibrio de clases con datos de crédito", Conferencia internacional de tecnología de la información, Ingeniería y Gestión de la Informática, 2011, pp. 393-397 |
[DSRBF] | Francisco Fernández-Navarro y César Hervás-Martínez y Pedro Antonio Gutiérrez, "Un procedimiento dinámico de exhibición sobre la sensibilidad para problemas de múltiples clases", Reconocimiento de patrones, 2011, pp. 1821-1833 |
[Gaussian_Smote] | Hansoo Lee y Jonggeun Kim y Sungshin Kim, "Algoritmo Smote con sede en Gaussian para resolver distribuciones de clase sesgadas", int. J. Fuzzy Logic and Intelligent Systems, 2017, pp. 229-234 |
[kmeans_smote] | Georgios Douzas y Fernando Bacao y Felix duran, "Mejorando el aprendizaje desequilibrado a través de un método de sobremuestreo heurístico basado en K -means y Smote", Information Sciences, 2018, pp. 1 - 20 |
[Supervisado_smote] | Hu, Jun y He, Xue y Yu, Dong-Jun y Yang, Xi-Bei y Yang, Jing-Yu y Shen, Hong-bin, "un nuevo algoritmo supervisado de muestreo exámenes con aplicación a la predicción de residuos de unión a nucleótidos de proteínas" , Plos One, 2014, pp. 1-10 |
[Sn_smote] | GARC {'I}, "Smote circundante basado en el vecindario para aprender de conjuntos de datos desequilibrados", Progress in Artificial Intelligence, 2012, pp. 347-362 |
[CCR] | Koziarski, Michał y Wozniak, Michal, "CCR: un algoritmo combinado de limpieza y remuestreo para la clasificación de datos desequilibrados", International Journal of Applied Mathematics and Computer Science, 2017, pp. 727–736 |
[Respuesta] | Siriseriwan, W y Sinapiromsaran, Krung, "Técnica de sobremuestra minoritaria sintética adaptativa vecina bajo el manejo de 1NN Outcast", Songklanakarin Journal of Science and Technology, 2017, pp. 565-576 |
[cluster_smote] | Cieslak, DA y Chawla, NV y Striegel, A., "Combatir el desequilibrio en los conjuntos de datos de intrusos de red", Conferencia Internacional IEEE 2006 sobre computación granular, 2006, pp. 732-737 |
[Symprod] | Kunakorntum, I. y Hinthong, W. y Phunchonggharn, P., "Una minoría sintética basada en la distribución probabilística (Symprod) sobremuestresorto para conjuntos de datos desequilibrados", IEEE Access, 2020, pp. 114692 - 114704 |
[Smotewb] | Sağlam, F. y Cengiz, MA, "Una novedosa técnica de remuestreo basada en la detección de ruido y el procedimiento de impulso", Sistemas expertos con aplicaciones, 2022, pp. 117023 |