Nuestro estudio revela los problemas persistentes de etiquetas de error en los conjuntos de datos existentes utilizados para las tareas de detección de vulnerabilidades del código fuente. Destacamos la necesidad de construir conjuntos de datos de alta calidad recopilados utilizando técnicas confiables. Aquí ofrecemos nuestra implementación de los modelos descritos en nuestro artículo, incluidos DeepWuKong, SySeVr, VulDeePecker y dos métodos de eliminación de ruido correspondientes (CL y DT). Los conjuntos de datos que utilizamos también se enumeran a continuación.
configuraciones :
config files for deep learning models. In this work, we just use deepwukong.yaml, silver.yaml, and vuldeepecker.yaml.
modelos :
code files for deep learning models.
preparar_datos :
util files that prepare data for FFmpeg+qumu.
herramientas :
program slice util files.
utiles :
commonly used functions.
confident_learning.py :
entrance of confident learning.
entrenamiento_diferencial.py :
entrance of differential training.
dwk_train.py :
entrance of training deepwukong.
sys_train.py :
entrance of training sysevr.
vdp_train.py :
entrance of training vuldeepecker.
scrd_crawl.py :
code for crawling sard dataset.
Puede rastrear datos de vulnerabilidad desde el sitio web oficial de SARD mediante un script:
python sard_crawl.py
You can download it via this link.
Xu Nie, Ningke Li, Kailong Wang, Shangguang Wang, Xiapu Luo, and Haoyu Wang. 2023. Understanding and Tackling Label Errors in Deep Learning-based Vulnerability Detection. In Proceedings of the 32nd ACM SIGSOFT International Symposium on Software Testing and Analysis (ISSTA ’23), July 17–21, 2023, Seattle, WA, USA. ACM, New York, NY, USA, 12 pages. https://doi.org/10.1145/3597926.3598037