Studi kami mengungkapkan masalah label kesalahan yang terus-menerus dalam kumpulan data yang ada yang digunakan untuk tugas deteksi kerentanan kode sumber. Kami menyoroti perlunya membangun kumpulan data berkualitas tinggi yang dikumpulkan menggunakan teknik yang andal. Di sini kami menawarkan implementasi model yang dijelaskan dalam makalah kami, termasuk DeepWuKong, SySeVr, VulDeePecker dan dua metode denoising yang sesuai (CL dan DT). Kumpulan data yang kami gunakan juga tercantum di bawah ini.
konfigurasi :
config files for deep learning models. In this work, we just use deepwukong.yaml, silver.yaml, and vuldeepecker.yaml.
model :
code files for deep learning models.
persiapan_data :
util files that prepare data for FFmpeg+qumu.
peralatan :
program slice util files.
kegunaan :
commonly used functions.
percaya diri_learning.py :
entrance of confident learning.
differential_training.py :
entrance of differential training.
dwk_train.py :
entrance of training deepwukong.
sys_train.py :
entrance of training sysevr.
vdp_train.py :
entrance of training vuldeepecker.
scrd_crawl.py :
code for crawling sard dataset.
Anda dapat merayapi data kerentanan dari situs resmi SARD melalui skrip:
python sard_crawl.py
You can download it via this link.
Xu Nie, Ningke Li, Kailong Wang, Shangguang Wang, Xiapu Luo, and Haoyu Wang. 2023. Understanding and Tackling Label Errors in Deep Learning-based Vulnerability Detection. In Proceedings of the 32nd ACM SIGSOFT International Symposium on Software Testing and Analysis (ISSTA ’23), July 17–21, 2023, Seattle, WA, USA. ACM, New York, NY, USA, 12 pages. https://doi.org/10.1145/3597926.3598037