Vulnerability Dataset Denoising
1.0.0
우리의 연구에서는 소스 코드 취약점 탐지 작업에 사용되는 기존 데이터 세트에서 지속적인 오류 레이블 문제가 밝혀졌습니다. 신뢰할 수 있는 기술을 사용하여 수집된 고품질 데이터 세트를 구축해야 할 필요성을 강조합니다. 여기에서는 DeepWuKong, SySeVr, VulDeePecker 및 두 가지 해당 노이즈 제거 방법(CL 및 DT)을 포함하여 논문에 설명된 모델의 구현을 제공합니다. 우리가 사용하는 데이터 세트도 아래에 나열되어 있습니다.
구성 :
config files for deep learning models. In this work, we just use deepwukong.yaml, silver.yaml, and vuldeepecker.yaml.
모델 :
code files for deep learning models.
prepare_data :
util files that prepare data for FFmpeg+qumu.
도구 :
program slice util files.
유틸리티 :
commonly used functions.
Confidential_learning.py :
entrance of confident learning.
Differential_training.py :
entrance of differential training.
dwk_train.py :
entrance of training deepwukong.
sys_train.py :
entrance of training sysevr.
vdp_train.py :
entrance of training vuldeepecker.
scrd_crawl.py :
code for crawling sard dataset.
스크립트를 통해 SARD 공식 웹사이트에서 취약점 데이터를 크롤링할 수 있습니다.
python sard_crawl.py
You can download it via this link.
Xu Nie, Ningke Li, Kailong Wang, Shangguang Wang, Xiapu Luo, and Haoyu Wang. 2023. Understanding and Tackling Label Errors in Deep Learning-based Vulnerability Detection. In Proceedings of the 32nd ACM SIGSOFT International Symposium on Software Testing and Analysis (ISSTA ’23), July 17–21, 2023, Seattle, WA, USA. ACM, New York, NY, USA, 12 pages. https://doi.org/10.1145/3597926.3598037