يعد هذا المستودع جزءًا من مشروع مخزن البيانات الاصطناعية، وهو مشروع من DataCebo.
مخزن البيانات الاصطناعية (SDV) عبارة عن مكتبة Python مصممة لتكون متجرك الشامل لإنشاء بيانات تركيبية جدولية. يستخدم SDV مجموعة متنوعة من خوارزميات التعلم الآلي لتعلم الأنماط من بياناتك الحقيقية ومحاكاتها في البيانات الاصطناعية.
؟ إنشاء بيانات تركيبية باستخدام التعلم الآلي. يقدم SDV نماذج متعددة، تتراوح من الأساليب الإحصائية الكلاسيكية (GaussianCopula) إلى أساليب التعلم العميق (CTGAN). إنشاء بيانات لجداول فردية أو جداول متصلة متعددة أو جداول متسلسلة.
تقييم وتصور البيانات. قارن البيانات الاصطناعية بالبيانات الحقيقية مقابل مجموعة متنوعة من التدابير. تشخيص المشكلات وإنشاء تقرير جودة للحصول على مزيد من الأفكار.
المعالجة المسبقة وإخفاء الهوية وتحديد القيود. التحكم في معالجة البيانات لتحسين جودة البيانات الاصطناعية، والاختيار من بين أنواع مختلفة من إخفاء الهوية وتحديد قواعد العمل في شكل قيود منطقية.
روابط مهمة | |
---|---|
دروس | احصل على بعض الخبرة العملية مع SDV. قم بتشغيل دفاتر الملاحظات التعليمية وقم بتشغيل التعليمات البرمجية بنفسك. |
المستندات | تعرف على كيفية استخدام مكتبة SDV مع أدلة المستخدم ومراجع واجهة برمجة التطبيقات. |
؟ مدونة | احصل على مزيد من الأفكار حول استخدام SDV ونشر النماذج ومجتمع البيانات الاصطناعية الخاص بنا. |
مجتمع | انضم إلى مساحة عمل Slack الخاصة بنا للحصول على الإعلانات والمناقشات. |
موقع إلكتروني | قم بزيارة موقع SDV لمزيد من المعلومات حول المشروع. |
SDV متاح للجمهور بموجب ترخيص مصدر الأعمال. قم بتثبيت SDV باستخدام النقطة أو conda. نوصي باستخدام بيئة افتراضية لتجنب التعارضات مع البرامج الأخرى الموجودة على جهازك.
pip install sdv
conda install -c pytorch -c conda-forge sdv
قم بتحميل مجموعة بيانات تجريبية للبدء. مجموعة البيانات هذه عبارة عن جدول واحد يصف الضيوف المقيمين في فندق خيالي.
from sdv . datasets . demo import download_demo
real_data , metadata = download_demo (
modality = 'single_table' ,
dataset_name = 'fake_hotel_guests' )
يتضمن العرض التوضيحي أيضًا البيانات الوصفية ، ووصفًا لمجموعة البيانات، بما في ذلك أنواع البيانات في كل عمود والمفتاح الأساسي ( guest_email
).
بعد ذلك، يمكننا إنشاء مركب SDV ، وهو كائن يمكنك استخدامه لإنشاء بيانات تركيبية. فهو يتعلم الأنماط من البيانات الحقيقية ويكررها لإنشاء بيانات تركيبية. دعونا نستخدم GaussianCopulaSynthesizer.
from sdv . single_table import GaussianCopulaSynthesizer
synthesizer = GaussianCopulaSynthesizer ( metadata )
synthesizer . fit ( data = real_data )
والآن أصبح المُركِّب جاهزًا لإنشاء بيانات تركيبية!
synthetic_data = synthesizer . sample ( num_rows = 500 )
سيكون للبيانات الاصطناعية الخصائص التالية:
تتيح لك مكتبة SDV تقييم البيانات الاصطناعية من خلال مقارنتها بالبيانات الحقيقية. ابدأ بإنشاء تقرير الجودة.
from sdv . evaluation . single_table import evaluate_quality
quality_report = evaluate_quality (
real_data ,
synthetic_data ,
metadata )
Generating report ...
(1/2) Evaluating Column Shapes: |████████████████| 9/9 [00:00<00:00, 1133.09it/s]|
Column Shapes Score: 89.11%
(2/2) Evaluating Column Pair Trends: |██████████████████████████████████████████| 36/36 [00:00<00:00, 502.88it/s]|
Column Pair Trends Score: 88.3%
Overall Score (Average): 88.7%
يحسب هذا الكائن نقاط الجودة الإجمالية على مقياس من 0 إلى 100% (100 هي الأفضل) بالإضافة إلى تفاصيل تفصيلية. للحصول على مزيد من الرؤى، يمكنك أيضًا تصور البيانات الاصطناعية مقابل البيانات الحقيقية.
from sdv . evaluation . single_table import get_column_plot
fig = get_column_plot (
real_data = real_data ,
synthetic_data = synthetic_data ,
column_name = 'amenities_fee' ,
metadata = metadata
)
fig . show ()
باستخدام مكتبة SDV، يمكنك تجميع بيانات الجدول الفردي والجداول المتعددة والبيانات المتسلسلة. يمكنك أيضًا تخصيص سير عمل البيانات الاصطناعية بالكامل، بما في ذلك المعالجة المسبقة وإخفاء الهوية وإضافة القيود.
لمعرفة المزيد، قم بزيارة صفحة العرض التوضيحي لـ SDV.
شكرًا لفريق المساهمين لدينا الذين قاموا ببناء وصيانة النظام البيئي SDV على مر السنين!
عرض المساهمين
إذا كنت تستخدم SDV لبحثك، يرجى الاستشهاد بالمقالة التالية:
نيها باتكي، روي ويدج، كاليان فيراماتشانيني . قبو البيانات الاصطناعية. جمعية مهندسي الكهرباء والإلكترونيات (IEEE) 2016.
@inproceedings{
SDV,
title={The Synthetic data vault},
author={Patki, Neha and Wedge, Roy and Veeramachaneni, Kalyan},
booktitle={IEEE International Conference on Data Science and Advanced Analytics (DSAA)},
year={2016},
pages={399-410},
doi={10.1109/DSAA.2016.49},
month={Oct}
}
تم إنشاء مشروع مخزن البيانات الاصطناعية لأول مرة في مختبر البيانات إلى الذكاء الاصطناعي التابع لمعهد ماساتشوستس للتكنولوجيا في عام 2016. وبعد 4 سنوات من البحث والتعاون مع المؤسسة، أنشأنا DataCebo في عام 2020 بهدف تنمية المشروع. اليوم، تعد DataCebo المطور الفخور لـ SDV، وهو أكبر نظام بيئي لتوليد البيانات الاصطناعية وتقييمها. فهي موطن لمكتبات متعددة تدعم البيانات الاصطناعية، بما في ذلك:
ابدأ باستخدام حزمة SDV - وهو حل متكامل تمامًا ومتجرك الشامل للبيانات الاصطناعية. أو استخدم المكتبات المستقلة لتلبية احتياجات محددة.