[24 ноября 2024 г.] Мы добавляем в SynMeter новый синтезатор SOTA HP REaLTabFormer! Попробуйте!
[18 сентября 2024 г.] Мы добавляем в SynMeter новый синтезатор SOTA HP TabSyn! Попробуйте!
Создайте новую среду conda и настройте:
conda create -n synmeter python==3.9
conda activate synmeter
pip install -r requirements.txt # install dependencies
pip install -e . # package the library
Измените базовый словарь в ./lib/info/ROOT_DIR
:
ROOT_DIR = root_to_synmeter
./dataset
../exp/evaluators
.python scripts/tune_evaluator.py -d [dataset] -c [cuda]
Мы предоставляем единую цель настройки модели, поэтому все виды синтезаторов можно настроить с помощью одной команды:
python scripts/tune_synthesizer.py -d [dataset] -m [synthesizer] -s [seed] -c [cuda]
После настройки конфигурация должна быть записана в /exp/dataset/synthesizer
, SynMeter может использовать ее для обучения и хранения синтезатора:
python scripts/train_synthesizer.py -d [dataset] -m [synthesizer] -s [seed] -c [cuda]
Оценка достоверности синтетических данных:
python scripts/eval_fidelity.py -d [dataset] -m [synthesizer] -s [seed] -t [target]
Оценка конфиденциальности синтетических данных:
python scripts/eval_privacy.py -d [dataset] -m [synthesizer] -s [seed]
Оценка полезности синтетических данных:
python scripts/eval_utility.py -d [dataset] -m [synthesizer] -s [seed]
Результаты оценок следует сохранить в соответствующем словаре /exp/dataset/synthesizer
.
Одним из преимуществ SynMeter является предоставление самого простого способа добавления новых алгоритмов синтеза. Для этого необходимо выполнить три шага:
./synthesizer/my_synthesiszer
./exp/base_config
../synthesizer
, которая содержит три функции: train
, sample
и tune
.Затем вы можете свободно настраивать, запускать и тестировать новый синтезатор!
Метод | Тип | Описание | Ссылка |
---|---|---|---|
МСТ | ДП | Метод использует вероятностные графические модели для изучения зависимости низкоразмерных маргиналов для синтеза данных. | Бумага, Код |
ПривСин | ДП | Непараметрический синтезатор DP, который итеративно обновляет синтетический набор данных, чтобы он соответствовал целевым пределам шума. | Бумага, Код |
Метод | Тип | Описание | Ссылка |
---|---|---|---|
КТГАН | HP | Условно-генеративная состязательная сеть, способная обрабатывать табличные данные. | Бумага, Код |
ПАТЭ-ГАН | ДП | Этот метод использует структуру частного агрегирования учительских ансамблей (PATE) и применяет ее к GAN. | Бумага, Код |
Метод | Тип | Описание | Ссылка |
---|---|---|---|
ТВАЭ | HP | Условная сеть VAE, которая может обрабатывать табличные данные. | Бумага, Код |
Метод | Тип | Описание | Ссылка |
---|---|---|---|
ТабДДПМ | HP | Используйте модель диффузии для синтеза табличных данных | Бумага, Код |
Табсин | HP | Используйте модель скрытой диффузии и VAE для синтеза. | Бумага, Код |
СтолДиффузия | ДП | Создание наборов табличных данных в условиях дифференциальной конфиденциальности. | Бумага, Код |
Метод | Тип | Описание | Ссылка |
---|---|---|---|
Большой | HP | Используйте LLM для точной настройки набора табличных данных. | Бумага, Код |
REaLTabFormer | HP | Используйте GPT-2, чтобы узнать реляционную зависимость табличных данных. | Бумага, Код |
Метрики точности : мы рассматриваем расстояние Вассерштейна как принципиальную метрику точности, которая рассчитывается по всем одно- и двусторонним маргиналам.
Показатели конфиденциальности : мы разработали показатель раскрытия информации о членстве (MDS) для измерения рисков конфиденциальности членства синтезаторов HP и DP.
Метрики полезности : мы используем сходство машинного обучения и ошибку запроса для измерения полезности синтетических данных.
Подробности и способы использования см. в нашей статье.
В этом проекте использовано множество отличных алгоритмов синтеза и библиотек с открытым исходным кодом: