Vulnerability Dataset Denoising
1.0.0
تكشف دراستنا عن مشكلات تسمية الخطأ المستمرة في مجموعات البيانات الحالية المستخدمة في مهام الكشف عن ثغرات كود المصدر. ونسلط الضوء على ضرورة إنشاء مجموعات بيانات عالية الجودة يتم جمعها باستخدام تقنيات موثوقة. نحن هنا نقدم تنفيذنا للنماذج الموضحة في ورقتنا، بما في ذلك DeepWuKong وSySeVr وVulDeePecker وطريقتين متطابقتين لتقليل الضوضاء (CL وDT). مجموعات البيانات التي نستخدمها مدرجة أيضًا أدناه.
التكوينات :
config files for deep learning models. In this work, we just use deepwukong.yaml, silver.yaml, and vuldeepecker.yaml.
النماذج :
code files for deep learning models.
إعداد_البيانات :
util files that prepare data for FFmpeg+qumu.
أدوات :
program slice util files.
الاستخدامات :
commonly used functions.
confid_learning.py :
entrance of confident learning.
التفاضلية_التدريب .py :
entrance of differential training.
dwk_train.py :
entrance of training deepwukong.
sys_train.py :
entrance of training sysevr.
vdp_train.py :
entrance of training vuldeepecker.
scrd_crawl.py :
code for crawling sard dataset.
يمكنك الزحف إلى بيانات الضعف من الموقع الرسمي لـ SARD من خلال البرنامج النصي:
python sard_crawl.py
You can download it via this link.
Xu Nie, Ningke Li, Kailong Wang, Shangguang Wang, Xiapu Luo, and Haoyu Wang. 2023. Understanding and Tackling Label Errors in Deep Learning-based Vulnerability Detection. In Proceedings of the 32nd ACM SIGSOFT International Symposium on Software Testing and Analysis (ISSTA ’23), July 17–21, 2023, Seattle, WA, USA. ACM, New York, NY, USA, 12 pages. https://doi.org/10.1145/3597926.3598037