Unsere Studie deckt die anhaltenden Fehlerkennzeichnungsprobleme in den vorhandenen Datensätzen auf, die für Aufgaben zur Erkennung von Quellcode-Schwachstellen verwendet werden. Wir unterstreichen die Notwendigkeit, qualitativ hochwertige Datensätze zu erstellen, die mit zuverlässigen Techniken erfasst werden. Hier bieten wir unsere Implementierung der in unserem Artikel beschriebenen Modelle an, darunter DeepWuKong, SySeVr, VulDeePecker und zwei entsprechende Entrauschungsmethoden (CL und DT). Die von uns verwendeten Datensätze sind ebenfalls unten aufgeführt.
Konfigurationen :
config files for deep learning models. In this work, we just use deepwukong.yaml, silver.yaml, and vuldeepecker.yaml.
Modelle :
code files for deep learning models.
Prepare_data :
util files that prepare data for FFmpeg+qumu.
Werkzeuge :
program slice util files.
Hilfsmittel :
commonly used functions.
confident_learning.py :
entrance of confident learning.
Differential_training.py :
entrance of differential training.
dwk_train.py :
entrance of training deepwukong.
sys_train.py :
entrance of training sysevr.
vdp_train.py :
entrance of training vuldeepecker.
scrd_crawl.py :
code for crawling sard dataset.
Sie können Schwachstellendaten von der offiziellen SARD-Website über ein Skript crawlen:
python sard_crawl.py
You can download it via this link.
Xu Nie, Ningke Li, Kailong Wang, Shangguang Wang, Xiapu Luo, and Haoyu Wang. 2023. Understanding and Tackling Label Errors in Deep Learning-based Vulnerability Detection. In Proceedings of the 32nd ACM SIGSOFT International Symposium on Software Testing and Analysis (ISSTA ’23), July 17–21, 2023, Seattle, WA, USA. ACM, New York, NY, USA, 12 pages. https://doi.org/10.1145/3597926.3598037