Vulnerability Dataset Denoisingダウンロード - Vulnerability Dataset Denoisingソースコードのダウンロード

Vulnerability Dataset Denoising

その他のソースコード

1.0.0

ダウンロード

脆弱性データセットのノイズ除去 (経験的)

このツールキットは、ISSTA'23 論文「深層学習ベースの脆弱性検出におけるラベルエラーの理解と取り組み (経験論文)」で使用されているすべてのコードです。

私たちの調査では、ソースコードの脆弱性検出タスクに使用される既存のデータセットに永続的なエラーラベルの問題があることが明らかになりました。信頼できる技術を使用して収集された高品質のデータセットを構築する必要性を強調しています。ここでは、DeepWuKong、SySeVr、VulDeePecker、および対応する 2 つのノイズ除去方法 (CL および DT) を含む、論文で説明されているモデルの実装を提供します。私たちが使用するデータセットも以下にリストされています。

ご利用案内

フォルダーの説明:

構成:

config files for deep learning models. In this work, we just use deepwukong.yaml, silver.yaml, and vuldeepecker.yaml.

モデル:

code files for deep learning models.

準備データ:

util files that prepare data for FFmpeg+qumu.

ツール:

program slice util files.

ユーティリティ:

commonly used functions.

confident_learning.py :

entrance of confident learning.

Differential_training.py :

entrance of differential training.

dwk_train.py :

entrance of training deepwukong.

sys_train.py :

entrance of training sysevr.

vdp_train.py :

entrance of training vuldeepecker.

scrd_crawl.py :

code for crawling sard dataset.

データセット:

サード:

次のスクリプトを使用して、SARD 公式 Web サイトから脆弱性データをクロールできます。

python sard_crawl.py

Qemu+FFmpeg:Qemu+FFmpeg

You can download it via this link.

引用

Xu Nie, Ningke Li, Kailong Wang, Shangguang Wang, Xiapu Luo, and Haoyu Wang. 2023. Understanding and Tackling Label Errors in Deep Learning-based Vulnerability Detection. In Proceedings of the 32nd ACM SIGSOFT International Symposium on Software Testing and Analysis (ISSTA ’23), July 17–21, 2023, Seattle, WA, USA. ACM, New York, NY, USA, 12 pages. https://doi.org/10.1145/3597926.3598037

拡大する

追加情報