同步計
1.0.0
[2024 年 11 月 24 日] 我們為 SynMeter 新增了新的 SOTA HP 合成器 REaLTabFormer!嘗試一下!
[2024 年 9 月 18 日] 我們為 SynMeter 新增了新的 SOTA HP 合成器 TabSyn!嘗試一下!
建立新的 conda 環境並設定:
conda create -n synmeter python==3.9
conda activate synmeter
pip install -r requirements.txt # install dependencies
pip install -e . # package the library
更改./lib/info/ROOT_DIR
中的基本字典:
ROOT_DIR = root_to_synmeter
./dataset
輕鬆使用它。./exp/evaluators
中提供了 8 個常用的機器學習模型及其配置。python scripts/tune_evaluator.py -d [dataset] -c [cuda]
我們為模型調優提供了統一的調優目標,因此,只需一個指令即可調優各種合成器:
python scripts/tune_synthesizer.py -d [dataset] -m [synthesizer] -s [seed] -c [cuda]
調整後,應將配置記錄到/exp/dataset/synthesizer
,SynMeter 可以使用它來訓練和儲存合成器:
python scripts/train_synthesizer.py -d [dataset] -m [synthesizer] -s [seed] -c [cuda]
評估合成資料的保真度:
python scripts/eval_fidelity.py -d [dataset] -m [synthesizer] -s [seed] -t [target]
評估合成資料的隱私性:
python scripts/eval_privacy.py -d [dataset] -m [synthesizer] -s [seed]
評估合成資料的效用:
python scripts/eval_utility.py -d [dataset] -m [synthesizer] -s [seed]
評估結果應保存在對應的字典/exp/dataset/synthesizer
下。
SynMeter的優點之一是提供最簡單的方法來添加新的合成演算法,需要三個步驟:
./synthesizer/my_synthesiszer
./exp/base_config
中建立基本配置。./synthesizer
中建立一個呼叫 python 函數,其中包含三個函數: train
、 sample
和tune
。然後,您可以自由地調整、運行和測試新的合成器!
方法 | 類型 | 描述 | 參考 |
---|---|---|---|
MST | DP | 此方法使用機率圖模型來學習資料合成的低維邊緣的依賴性。 | 紙張、程式碼 |
專用同步器 | DP | 非參數 DP 合成器,迭代更新合成資料集使其與目標雜訊邊際匹配。 | 紙張、程式碼 |
方法 | 類型 | 描述 | 參考 |
---|---|---|---|
CTGAN | 惠普 | 可以處理表格資料的條件生成對抗網路。 | 紙張、程式碼 |
派特甘 | DP | 此方法使用教師集合的私有聚合(PATE)架構並將其應用於 GAN。 | 紙張、程式碼 |
方法 | 類型 | 描述 | 參考 |
---|---|---|---|
電視AE | 惠普 | 可以處理表格資料的條件 VAE 網路。 | 紙張、程式碼 |
方法 | 類型 | 描述 | 參考 |
---|---|---|---|
選項卡DDPM | 惠普 | 使用擴散模型進行表格資料合成 | 紙張、程式碼 |
標籤同步 | 惠普 | 使用潛在擴散模型和 VAE 進行合成。 | 紙張、程式碼 |
表擴散 | DP | 在差異隱私下產生表格資料集。 | 紙張、程式碼 |
方法 | 類型 | 描述 | 參考 |
---|---|---|---|
偉大的 | 惠普 | 使用 LLM 微調表格資料集。 | 紙張、程式碼 |
REALTabFormer | 惠普 | 使用 GPT-2 學習表格資料的關係依賴性。 | 紙張、程式碼 |
保真度量:我們將 Wasserstein 距離視為一種有原則的保真度度量,它是由所有單向和雙向邊際計算得出的。
隱私指標:我們設計了會員揭露評分 (MDS) 來衡量 HP 和 DP 合成器的會員隱私風險。
效用指標:我們使用機器學習親和力和查詢錯誤來衡量合成資料的效用。
請參閱我們的論文以了解詳細資訊和用法。
本專案使用了許多優秀的綜合演算法和開源函式庫: