Notre étude révèle les problèmes persistants d'étiquettes d'erreur dans les ensembles de données existants utilisés pour les tâches de détection de vulnérabilités du code source. Nous soulignons la nécessité de construire des ensembles de données de haute qualité collectés à l'aide de techniques fiables. Nous proposons ici notre implémentation des modèles décrits dans notre article, notamment DeepWuKong, SySeVr, VulDeePecker et deux méthodes de débruitage correspondantes (CL et DT). Les ensembles de données que nous utilisons sont également répertoriés ci-dessous.
configurations :
config files for deep learning models. In this work, we just use deepwukong.yaml, silver.yaml, and vuldeepecker.yaml.
modèles :
code files for deep learning models.
préparer_données :
util files that prepare data for FFmpeg+qumu.
outils :
program slice util files.
utilitaires :
commonly used functions.
confiant_learning.py :
entrance of confident learning.
différentiel_training.py :
entrance of differential training.
dwk_train.py :
entrance of training deepwukong.
sys_train.py :
entrance of training sysevr.
vdp_train.py :
entrance of training vuldeepecker.
scrd_crawl.py :
code for crawling sard dataset.
Vous pouvez explorer les données de vulnérabilité du site officiel de SARD via un script :
python sard_crawl.py
You can download it via this link.
Xu Nie, Ningke Li, Kailong Wang, Shangguang Wang, Xiapu Luo, and Haoyu Wang. 2023. Understanding and Tackling Label Errors in Deep Learning-based Vulnerability Detection. In Proceedings of the 32nd ACM SIGSOFT International Symposium on Software Testing and Analysis (ISSTA ’23), July 17–21, 2023, Seattle, WA, USA. ACM, New York, NY, USA, 12 pages. https://doi.org/10.1145/3597926.3598037