同步计
1.0.0
[2024 年 11 月 24 日] 我们向 SynMeter 添加了新的 SOTA HP 合成器 REaLTabFormer!尝试一下!
[2024 年 9 月 18 日] 我们向 SynMeter 添加了新的 SOTA HP 合成器 TabSyn!尝试一下!
创建新的 conda 环境并设置:
conda create -n synmeter python==3.9
conda activate synmeter
pip install -r requirements.txt # install dependencies
pip install -e . # package the library
更改./lib/info/ROOT_DIR
中的基本字典:
ROOT_DIR = root_to_synmeter
./dataset
轻松使用它。./exp/evaluators
中提供了 8 个常用的机器学习模型及其配置。python scripts/tune_evaluator.py -d [dataset] -c [cuda]
我们为模型调优提供了统一的调优目标,因此,只需一个命令即可调优各种合成器:
python scripts/tune_synthesizer.py -d [dataset] -m [synthesizer] -s [seed] -c [cuda]
调整后,应将配置记录到/exp/dataset/synthesizer
,SynMeter 可以使用它来训练和存储合成器:
python scripts/train_synthesizer.py -d [dataset] -m [synthesizer] -s [seed] -c [cuda]
评估合成数据的保真度:
python scripts/eval_fidelity.py -d [dataset] -m [synthesizer] -s [seed] -t [target]
评估合成数据的隐私性:
python scripts/eval_privacy.py -d [dataset] -m [synthesizer] -s [seed]
评估合成数据的效用:
python scripts/eval_utility.py -d [dataset] -m [synthesizer] -s [seed]
评估结果应保存在相应的字典/exp/dataset/synthesizer
下。
SynMeter的优点之一是提供最简单的方法来添加新的合成算法,需要三个步骤:
./synthesizer/my_synthesiszer
./exp/base_config
中创建基本配置。./synthesizer
中创建一个调用 python 函数,其中包含三个函数: train
、 sample
和tune
。然后,您可以自由地调整、运行和测试新的合成器!
方法 | 类型 | 描述 | 参考 |
---|---|---|---|
MST | DP | 该方法使用概率图模型来学习数据合成的低维边缘的依赖性。 | 纸张、代码 |
专用同步器 | DP | 非参数 DP 合成器,迭代更新合成数据集以使其与目标噪声边际匹配。 | 纸张、代码 |
方法 | 类型 | 描述 | 参考 |
---|---|---|---|
CTGAN | 惠普 | 可以处理表格数据的条件生成对抗网络。 | 纸张、代码 |
帕特甘 | DP | 该方法使用教师集合的私有聚合(PATE)框架并将其应用于 GAN。 | 纸张、代码 |
方法 | 类型 | 描述 | 参考 |
---|---|---|---|
电视AE | 惠普 | 可以处理表格数据的条件 VAE 网络。 | 纸张、代码 |
方法 | 类型 | 描述 | 参考 |
---|---|---|---|
选项卡DDPM | 惠普 | 使用扩散模型进行表格数据合成 | 纸张、代码 |
标签同步 | 惠普 | 使用潜在扩散模型和 VAE 进行合成。 | 纸张、代码 |
表扩散 | DP | 在差异隐私下生成表格数据集。 | 纸张、代码 |
方法 | 类型 | 描述 | 参考 |
---|---|---|---|
伟大的 | 惠普 | 使用 LLM 微调表格数据集。 | 纸张、代码 |
REALTabFormer | 惠普 | 使用 GPT-2 学习表格数据的关系依赖性。 | 纸张、代码 |
保真度度量:我们将 Wasserstein 距离视为一种有原则的保真度度量,它是由所有单向和双向边际计算得出的。
隐私指标:我们设计了会员披露评分 (MDS) 来衡量 HP 和 DP 合成器的会员隐私风险。
效用指标:我们使用机器学习亲和力和查询错误来衡量合成数据的效用。
请参阅我们的论文了解详细信息和用法。
本项目使用了许多优秀的综合算法和开源库: