Vulnerability Dataset Denoising
1.0.0
私たちの調査では、ソース コードの脆弱性検出タスクに使用される既存のデータセットに永続的なエラー ラベルの問題があることが明らかになりました。信頼できる技術を使用して収集された高品質のデータセットを構築する必要性を強調しています。ここでは、DeepWuKong、SySeVr、VulDeePecker、および対応する 2 つのノイズ除去方法 (CL および DT) を含む、論文で説明されているモデルの実装を提供します。私たちが使用するデータセットも以下にリストされています。
構成:
config files for deep learning models. In this work, we just use deepwukong.yaml, silver.yaml, and vuldeepecker.yaml.
モデル:
code files for deep learning models.
準備データ:
util files that prepare data for FFmpeg+qumu.
ツール:
program slice util files.
ユーティリティ:
commonly used functions.
confident_learning.py :
entrance of confident learning.
Differential_training.py :
entrance of differential training.
dwk_train.py :
entrance of training deepwukong.
sys_train.py :
entrance of training sysevr.
vdp_train.py :
entrance of training vuldeepecker.
scrd_crawl.py :
code for crawling sard dataset.
次のスクリプトを使用して、SARD 公式 Web サイトから脆弱性データをクロールできます。
python sard_crawl.py
You can download it via this link.
Xu Nie, Ningke Li, Kailong Wang, Shangguang Wang, Xiapu Luo, and Haoyu Wang. 2023. Understanding and Tackling Label Errors in Deep Learning-based Vulnerability Detection. In Proceedings of the 32nd ACM SIGSOFT International Symposium on Software Testing and Analysis (ISSTA ’23), July 17–21, 2023, Seattle, WA, USA. ACM, New York, NY, USA, 12 pages. https://doi.org/10.1145/3597926.3598037