تبديل اللغة: 简体中文 | أحدث مستندات API | خريطة الطريق | انضم إلى مجموعة Wechat
أمثلة كولاب: LLM: تركيب البيانات | ماجستير في القانون: الاستدلال خارج الطاولة | دعم بيانات مستوى المليار CTGAN
يعد مولد البيانات الاصطناعية (SDG) إطارًا متخصصًا مصممًا لإنشاء بيانات جدولية منظمة عالية الجودة.
لا تحتوي البيانات الاصطناعية على أي معلومات حساسة، إلا أنها تحتفظ بالخصائص الأساسية للبيانات الأصلية، مما يجعلها معفاة من لوائح الخصوصية مثل اللائحة العامة لحماية البيانات (GDPR) وADPPA.
يمكن استخدام البيانات الاصطناعية عالية الجودة بأمان عبر مجالات مختلفة بما في ذلك مشاركة البيانات، والتدريب النموذجي وتصحيح الأخطاء، وتطوير النظام واختباره، وما إلى ذلك.
نحن متحمسون لوجودك هنا ونتطلع إلى مساهماتك، ابدأ بالمشروع من خلال دليل النظرة العامة على المساهمة!
إنجازاتنا الرئيسية الحالية والجداول الزمنية هي كما يلي:
21 نوفمبر 2024: 1) تكامل النموذج - لقد قمنا بدمج نموذج GaussianCopula
في نظام معالج البيانات لدينا. تحقق من مثال الكود في هذا العلاقات العامة؛ 2) الجودة الاصطناعية - قمنا بتنفيذ الكشف التلقائي عن علاقات أعمدة البيانات وسمحنا بمواصفات العلاقة، وقمنا بتحسين جودة البيانات الاصطناعية (مثال التعليمات البرمجية)؛ 3) تحسين الأداء - لقد قمنا بتقليل استخدام ذاكرة GaussianCopula بشكل كبير عند التعامل مع البيانات المنفصلة، مما يتيح التدريب على الآلاف من إدخالات البيانات الفئوية من خلال إعداد 2C4G
!
30 مايو 2024: تم دمج وحدة معالج البيانات رسميًا. ستقوم هذه الوحدة بما يلي: 1) مساعدة SDG على تحويل تنسيق بعض أعمدة البيانات (مثل أعمدة التاريخ والوقت) قبل إدخالها في النموذج (لتجنب معاملتها كأنواع منفصلة)، وتحويل البيانات التي أنشأها النموذج بشكل عكسي إلى التنسيق الأصلي ; 2) إجراء المزيد من المعالجة المسبقة والمعالجة اللاحقة لأنواع البيانات المختلفة؛ 3) التعامل بسهولة مع مشاكل مثل القيم الخالية في البيانات الأصلية؛ 4) دعم نظام المكونات.
20 فبراير 2024: تم تضمين نموذج تجميع بيانات جدول واحد يعتمد على LLM، اعرض مثال colab: LLM: تركيب البيانات وLLM: استنتاج الميزات خارج الجدول.
7 فبراير 2024: قمنا بتحسين sdgx.data_models.metadata
لدعم معلومات البيانات التعريفية التي تصف الجداول الفردية والجداول المتعددة، ودعم أنواع البيانات المتعددة، ودعم الاستدلال التلقائي لنوع البيانات. عرض مثال colab: بيانات التعريف ذات الجدول الفردي لـ SDG.
20 ديسمبر 2023: تم إصدار الإصدار 0.1.0، وتم تضمين نموذج CTGAN الذي يدعم المليارات من إمكانات معالجة البيانات، اعرض معيارنا مقابل SDV، حيث حقق SDG استهلاكًا أقل للذاكرة وتجنب التعطل أثناء التدريب. لاستخدام محدد، عرض مثال colab: دعم بيانات مستوى المليار CTGAN.
10 أغسطس 2023: الالتزام بالسطر الأول من كود أهداف التنمية المستدامة.
لفترة طويلة، تم استخدام LLM لفهم وإنشاء أنواع مختلفة من البيانات. في الواقع، تمتلك LLM أيضًا إمكانيات معينة في إنشاء البيانات الجدولية. كما أن لديها بعض القدرات التي لا يمكن تحقيقها بالوسائل التقليدية (المعتمدة على أساليب GAN أو الأساليب الإحصائية).
لدينا sdgx.models.LLM.single_table.gpt.SingleTableGPTModel
ينفذ ميزتين جديدتين:
ليست هناك حاجة إلى بيانات تدريب، ويمكن إنشاء بيانات تركيبية بناءً على بيانات التعريف، يمكنك عرضها في مثالنا التعاوني.
استنتج بيانات عمود جديدة بناءً على البيانات الموجودة في الجدول والمعرفة التي تتقنها LLM، اعرضها في مثالنا التعاوني.
التطورات التكنولوجية:
يدعم مجموعة واسعة من خوارزميات تجميع البيانات الإحصائية، كما تم دمج نموذج توليد البيانات الاصطناعية القائم على LLM؛
الأمثل للبيانات الكبيرة، مما يقلل بشكل فعال من استهلاك الذاكرة؛
التتبع المستمر لأحدث التطورات في الأوساط الأكاديمية والصناعة، وتقديم الدعم للخوارزميات والنماذج الممتازة في الوقت المناسب.
تحسينات الخصوصية:
يدعم SDG الخصوصية التفاضلية وإخفاء الهوية وطرق أخرى لتعزيز أمان البيانات الاصطناعية.
من السهل تمديد:
يدعم توسيع النماذج ومعالجة البيانات وموصلات البيانات وما إلى ذلك في شكل حزم المكونات الإضافية.
يمكنك استخدام الصور المعدة مسبقًا لتجربة أحدث الميزات بسرعة.
عامل ميناء سحب idsteam/sdgx:latest
تثبيت النقطة sdgx
استخدم SDG عن طريق تثبيته من خلال الكود المصدري.
git clone [email protected]:hitsz-ids/synthetic-data-generator.git تثبيت النقطة .# أو التثبيت من gitpip install git+https://github.com/hitsz-ids/synthetic-data-generator.git
من sdgx.data_connectors.csv_connector import CsvConnectorfrom sdgx.models.ml.single_table.ctgan import CTGANSynthesizerModelfrom sdgx.synthesizer import Synthesizerfrom sdgx.utils import download_demo_data# سيؤدي هذا إلى تنزيل بيانات العرض التوضيحي إلى ./datasetdataset_csv = download_demo_data()# إنشاء موصل بيانات لـ csv filedata_connector = CsvConnector(path=dataset_csv)# تهيئة المركب، استخدم نماذج CTGANsynthesizer = Synthesizer(model=CTGANSynthesizerModel(epochs=1), # للحصول على demodata_connector=data_connector, )# تناسب النماذجynthesizer.fit()# Samplesampled_data = Synthesizer.sample(1000)print(sampled_data)
البيانات الحقيقية هي كما يلي:
>>> data_connector.read() فئة العمل العمرية fnlwgt التعليم ... ساعات خسارة رأس المال في الأسبوع فئة البلد الأصلي 0 2 State-gov 77516 البكالوريوس ... 0 2 الولايات المتحدة <= 50K1 3 Self-emp-not-inc 83311 بكالوريوس .. 0 0 الولايات المتحدة <=50K2 2 خاص 215646 HS-grad ... 0 2 الولايات المتحدة. <=50K3 3 خاص 234721 الحادي عشر ... 0 2 الولايات المتحدة <=50K4 1 خاص 338409 بكالوريوس ... 0 2 كوبا <=50K... ... ... ... ... ... . .. ... ... ...48837 2 خاص 215419 بكالوريوس ... 0 2 الولايات المتحدة <=50K48838 4 NaN 321403 HS-grad ... 0 2 الولايات المتحدة <=50K48839 2 خاص 374983 بكالوريوس ... 0 3 الولايات المتحدة <=50K48840 2 خاص 83891 بكالوريوس ... 0 2 الولايات المتحدة <=50K48841 1 Self-emp-inc 182148 بكالوريوس ... 0 3 الولايات المتحدة >50 ألفًا[48842 صفًا × 15 عمودًا]
البيانات الاصطناعية هي كما يلي:
>>> Sampled_data فئة العمل العمرية fnlwgt التعليم ... ساعات خسارة رأس المال في الأسبوع فئة البلد الأصلي 0 1 NaN 28219 بعض الكليات ... 0 2 بورتوريكو <= 50K1 2 خاص 250166 HS-grad ... 0 2 الولايات المتحدة > 50K2 2 خاص 50304 HS-grad ... 0 2 الولايات المتحدة <=50K3 4 خاص 89318 بكالوريوس ... 0 2 بورتوريكو >50K4 1 خاص 172149 بكالوريوس ... 0 3 الولايات المتحدة <=50K.. ... ... ... ... ... ... ... ...995 2 NaN 208938 بكالوريوس ... 0 1 الولايات المتحدة <=50K996 2 خاص 166416 بكالوريوس ... 2 2 الولايات المتحدة <=50K997 2 NaN 336022 HS-grad ... 0 1 الولايات المتحدة <=50K998 3 خاص 198051 الماجستير ... 0 2 الولايات المتحدة > 50K999 1 NaN 41973 HS-grad ... 0 2 الولايات المتحدة <= 50 ألف [1000 صف × 15 عمود]
CTGAN: نمذجة البيانات الجدولية باستخدام GAN الشرطية
C3-TGAN: C3-TGAN- تجميع البيانات الجدولية التي يمكن التحكم فيها مع الارتباطات الصريحة وقيود الخصائص
TVAE: نمذجة البيانات الجدولية باستخدام GAN الشرطية
table-GAN: تجميع البيانات على أساس شبكات الخصومة التوليدية
CTAB-GAN:CTAB-GAN: التجميع الفعال لبيانات الجدول
OCT-GAN: OCT-GAN: شبكات GAN الجدولية الشرطية المستندة إلى ODE العصبية
بدأ مشروع أهداف التنمية المستدامة من قبل معهد أمن البيانات، معهد هاربين للتكنولوجيا . إذا كنت مهتمًا بالمشروع، فمرحبًا بك للانضمام إلى مجتمعنا. نرحب بالمنظمات والفرق والأفراد الذين يشاركوننا التزامنا بحماية البيانات وأمنها من خلال المصادر المفتوحة:
اقرأ المساهمة قبل صياغة طلب السحب.
قم بإرسال مشكلة من خلال عرض "عرض الإصدار الأول الجيد" أو إرسال طلب سحب.
انضم إلى مجموعة Wechat الخاصة بنا من خلال رمز QR.