Vulnerability Dataset Denoising
1.0.0
การศึกษาของเราเผยให้เห็นปัญหาป้ายกำกับข้อผิดพลาดที่เกิดขึ้นอย่างต่อเนื่องในชุดข้อมูลที่มีอยู่ซึ่งใช้สำหรับงานตรวจจับช่องโหว่ของซอร์สโค้ด เราเน้นย้ำถึงความจำเป็นในการสร้างชุดข้อมูลคุณภาพสูงที่รวบรวมโดยใช้เทคนิคที่เชื่อถือได้ ที่นี่เรานำเสนอการใช้งานแบบจำลองที่อธิบายไว้ในรายงานของเรา รวมถึง DeepWuKong, SySeVr, VulDeePecker และวิธีการลดสัญญาณรบกวนที่เกี่ยวข้องสองวิธี (CL และ DT) ชุดข้อมูลที่เราใช้มีรายชื่ออยู่ด้านล่างนี้ด้วย
กำหนดค่า :
config files for deep learning models. In this work, we just use deepwukong.yaml, silver.yaml, and vuldeepecker.yaml.
รุ่น :
code files for deep learning models.
เตรียม_ข้อมูล :
util files that prepare data for FFmpeg+qumu.
เครื่องมือ :
program slice util files.
ยูทิลิตี้ :
commonly used functions.
มั่นใจ_learning.py :
entrance of confident learning.
differential_training.py :
entrance of differential training.
dwk_train.py :
entrance of training deepwukong.
sys_train.py :
entrance of training sysevr.
vdp_train.py :
entrance of training vuldeepecker.
scrd_crawl.py :
code for crawling sard dataset.
คุณสามารถรวบรวมข้อมูลช่องโหว่ได้จากเว็บไซต์อย่างเป็นทางการของ SARD ผ่านสคริปต์:
python sard_crawl.py
You can download it via this link.
Xu Nie, Ningke Li, Kailong Wang, Shangguang Wang, Xiapu Luo, and Haoyu Wang. 2023. Understanding and Tackling Label Errors in Deep Learning-based Vulnerability Detection. In Proceedings of the 32nd ACM SIGSOFT International Symposium on Software Testing and Analysis (ISSTA ’23), July 17–21, 2023, Seattle, WA, USA. ACM, New York, NY, USA, 12 pages. https://doi.org/10.1145/3597926.3598037