[24 نوفمبر 2024] نضيف مُركِّب SOTA HP الجديد REaLTabFormer إلى SynMeter! جربه!
[18 سبتمبر 2024] نضيف مُركِّب SOTA HP الجديد TabSyn إلى SynMeter! جربه!
قم بإنشاء بيئة كوندا جديدة وإعدادها:
conda create -n synmeter python==3.9
conda activate synmeter
pip install -r requirements.txt # install dependencies
pip install -e . # package the library
قم بتغيير القاموس الأساسي في ./lib/info/ROOT_DIR
:
ROOT_DIR = root_to_synmeter
./dataset
../exp/evaluators
.python scripts/tune_evaluator.py -d [dataset] -c [cuda]
نحن نقدم هدف ضبط موحد لضبط النموذج، وبالتالي، يمكن ضبط جميع أنواع آلات المزج من خلال أمر واحد فقط:
python scripts/tune_synthesizer.py -d [dataset] -m [synthesizer] -s [seed] -c [cuda]
بعد الضبط، يجب تسجيل التكوين في /exp/dataset/synthesizer
، ويمكن لـ SynMeter استخدامه لتدريب وتخزين المُركِّب:
python scripts/train_synthesizer.py -d [dataset] -m [synthesizer] -s [seed] -c [cuda]
تقييم دقة البيانات الاصطناعية:
python scripts/eval_fidelity.py -d [dataset] -m [synthesizer] -s [seed] -t [target]
تقييم خصوصية البيانات الاصطناعية:
python scripts/eval_privacy.py -d [dataset] -m [synthesizer] -s [seed]
تقييم فائدة البيانات الاصطناعية:
python scripts/eval_utility.py -d [dataset] -m [synthesizer] -s [seed]
يجب حفظ نتائج التقييمات ضمن القاموس المقابل /exp/dataset/synthesizer
.
إحدى ميزات SynMeter هي توفير أسهل طريقة لإضافة خوارزميات تركيبية جديدة، ويلزم ثلاث خطوات:
./synthesizer/my_synthesiszer
./exp/base_config
../synthesizer
، والتي تحتوي على ثلاث وظائف: train
، sample
، tune
.بعد ذلك، أنت حر في ضبط وتشغيل واختبار المركب الجديد!
طريقة | يكتب | وصف | مرجع |
---|---|---|---|
مست | موانئ دبي | تستخدم الطريقة نماذج رسومية احتمالية لمعرفة مدى اعتماد الهوامش منخفضة الأبعاد في تركيب البيانات. | ورقة، كود |
بريفسين | موانئ دبي | مركب DP غير معلمي، والذي يقوم بشكل متكرر بتحديث مجموعة البيانات الاصطناعية لجعلها تتوافق مع هوامش الضوضاء المستهدفة. | ورقة، كود |
طريقة | يكتب | وصف | مرجع |
---|---|---|---|
CTGAN | HP | شبكة خصومة توليدية مشروطة يمكنها التعامل مع البيانات الجدولية. | ورقة، كود |
بات غان | موانئ دبي | تستخدم الطريقة إطار التجميع الخاص لمجموعات المعلمين (PATE) وتطبقه على شبكات GAN. | ورقة، كود |
طريقة | يكتب | وصف | مرجع |
---|---|---|---|
TVAE | HP | شبكة VAE مشروطة يمكنها التعامل مع البيانات الجدولية. | ورقة، كود |
طريقة | يكتب | وصف | مرجع |
---|---|---|---|
TabDDPM | HP | استخدام نموذج الانتشار لتوليف البيانات الجدولية | ورقة، كود |
TabSyn | HP | استخدام نموذج الانتشار الكامن وVAE للتوليف. | ورقة، كود |
نشر الجدول | موانئ دبي | إنشاء مجموعات بيانات جدولية في ظل الخصوصية التفاضلية. | ورقة، كود |
طريقة | يكتب | وصف | مرجع |
---|---|---|---|
عظيم | HP | استخدم LLM لضبط مجموعة البيانات الجدولية. | ورقة، كود |
REaLTabFormer | HP | استخدم GPT-2 لمعرفة الاعتماد العلائقي للبيانات الجدولية. | ورقة، كود |
مقاييس الإخلاص : نحن نعتبر مسافة فاسرشتاين بمثابة مقياس إخلاص مبدئي، والذي يتم حسابه بواسطة جميع الهوامش ذات الاتجاه الواحد والثنائي.
مقاييس الخصوصية : نقوم بتصميم نقاط الكشف عن العضوية (MDS) لقياس مخاطر خصوصية العضوية لكل من أجهزة المزج من HP وDP.
مقاييس المنفعة : نستخدم تقارب التعلم الآلي وخطأ الاستعلام لقياس فائدة البيانات الاصطناعية.
يرجى الاطلاع على ورقتنا للحصول على التفاصيل والاستخدامات.
يتم استخدام العديد من الخوارزميات التجميعية الممتازة والمكتبات مفتوحة المصدر في هذا المشروع: