التوثيق | الخلاف | تجاوز سعة المكدس | أحدث سجل التغيير
هل يعجبك هذا المشروع؟ تبين لنا حبك وإعطاء ردود الفعل!
الهدف الأساسي ydata-profiling
هو توفير تجربة تحليل البيانات الاستكشافية (EDA) ذات السطر الواحد في حل متسق وسريع. مثل وظيفة pandas df.describe()
، التي تعد سهلة الاستخدام للغاية، توفر ملفات تعريف ydata تحليلًا موسعًا لـ DataFrame مع السماح بتصدير تحليل البيانات بتنسيقات مختلفة مثل html و json .
تقوم الحزمة بإخراج تحليل بسيط ومهضوم لمجموعة البيانات، بما في ذلك السلاسل الزمنية والنص .
هل تبحث عن حل قابل للتطوير يمكنه التكامل بشكل كامل مع أنظمة قاعدة البيانات الخاصة بك؟
استفد من كتالوج بيانات YData Fabric للاتصال بقواعد البيانات ومخازن التخزين المختلفة (Oracle، وsnowflake، وPostGreSQL، وGCS، وS3، وما إلى ذلك) والاستفادة من تجربة ملفات التعريف التفاعلية والموجهة في Fabric. تحقق من إصدار المجتمع.
pip install ydata-profiling
أو
conda install -c conda-forge ydata-profiling
ابدأ بتحميل DataFrame
الباندا الخاص بك كما تفعل عادةً، على سبيل المثال باستخدام:
import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport
df = pd . DataFrame ( np . random . rand ( 100 , 5 ), columns = [ "a" , "b" , "c" , "d" , "e" ])
لإنشاء تقرير ملفات التعريف القياسية، ما عليك سوى تشغيل:
profile = ProfileReport ( df , title = "Profiling Report" )
يحتوي التقرير على ثلاثة أقسام إضافية:
لقد تم إصدار دعم Spark، ولكننا نبحث دائمًا عن زوج إضافي من الأيدي؟. تحقق من العمل الحالي قيد التقدم!.
يمكن استخدام ملفات تعريف YData لتقديم مجموعة متنوعة من حالات الاستخدام المختلفة. تتضمن الوثائق أدلة ونصائح وحيل للتعامل معها:
حالة الاستخدام | وصف |
---|---|
مقارنة مجموعات البيانات | مقارنة إصدارات متعددة من نفس مجموعة البيانات |
تحديد ملامح مجموعة بيانات السلاسل الزمنية | إنشاء تقرير لمجموعة بيانات السلاسل الزمنية باستخدام سطر واحد من التعليمات البرمجية |
تحديد ملامح مجموعات البيانات الكبيرة | نصائح حول كيفية تحضير البيانات وتكوين ydata-profiling للعمل مع مجموعات البيانات الكبيرة |
التعامل مع البيانات الحساسة | إنشاء تقارير تراعي البيانات الحساسة في مجموعة بيانات الإدخال |
البيانات الوصفية لمجموعات البيانات وقواميس البيانات | استكمال التقرير بتفاصيل مجموعة البيانات وقواميس البيانات الخاصة بالعمود |
تخصيص مظهر التقرير | تغيير مظهر صفحة التقرير والمرئيات المضمنة |
قواعد البيانات الشخصية | للحصول على تجربة إنشاء ملفات تعريف سلسة في قواعد بيانات مؤسستك، تحقق من Fabric Data Catalog، الذي يسمح باستهلاك البيانات من أنواع مختلفة من وحدات التخزين مثل RDBMs (Azure SQL، وPostGreSQL، وOracle، وما إلى ذلك) ومخازن الكائنات (Google Cloud Storage، وAWS S3، ندفة الثلج، وما إلى ذلك)، من بين أمور أخرى. |
هناك واجهتان لاستخدام التقرير داخل دفتر ملاحظات Jupyter: من خلال عناصر واجهة المستخدم ومن خلال تقرير HTML المضمن.
يتم تحقيق ما سبق بمجرد عرض التقرير كمجموعة من الأدوات. في Jupyter Notebook، قم بتشغيل:
profile . to_widgets ()
يمكن تضمين تقرير HTML مباشرة في خلية بطريقة مماثلة:
profile . to_notebook_iframe ()
لإنشاء ملف تقرير HTML، احفظ ProfileReport
إلى كائن واستخدم الدالة to_file()
:
profile . to_file ( "your_report.html" )
وبدلاً من ذلك، يمكن الحصول على بيانات التقرير كملف JSON:
# As a JSON string
json_data = profile . to_json ()
# As a file
profile . to_file ( "your_report.json" )
بالنسبة لملفات CSV ذات التنسيق القياسي (والتي يمكن قراءتها مباشرة بواسطة الباندا دون إعدادات إضافية)، يمكن استخدام الملف القابل للتنفيذ ydata_profiling
في سطر الأوامر. يقوم المثال أدناه بإنشاء تقرير باسم "تقرير ملف التعريف النموذجي" ، باستخدام ملف تكوين يسمى default.yaml
، في الملف report.html
عن طريق معالجة مجموعة بيانات data.csv
.
ydata_profiling --title " Example Profiling Report " --config_file default.yaml data.csv report.html
تتوفر تفاصيل إضافية حول CLI في الوثائق.
تعرض التقارير النموذجية التالية إمكانات الحزمة عبر مجموعة واسعة من مجموعات البيانات وأنواع البيانات:
تتوفر تفاصيل إضافية، بما في ذلك معلومات حول دعم عناصر واجهة المستخدم، في الوثائق.
يمكنك التثبيت باستخدام مدير حزمة pip
عن طريق تشغيل:
pip install -U ydata-profiling
تعلن الحزمة عن "إضافات" ومجموعات من التبعيات الإضافية.
[notebook]
: دعم عرض التقرير في عناصر واجهة مستخدم دفتر Jupyter.[unicode]
: دعم لتحليل Unicode أكثر تفصيلاً، على حساب مساحة القرص الإضافية.[pyspark]
: دعم pyspark لتحليل مجموعة البيانات الكبيرةقم بتثبيتها على سبيل المثال
pip install -U ydata-profiling[notebook,unicode,pyspark]
يمكنك التثبيت باستخدام مدير الحزم conda
عن طريق تشغيل:
conda install -c conda-forge ydata-profiling
قم بتنزيل الكود المصدري عن طريق استنساخ المستودع أو انقر فوق Download ZIP لتنزيل أحدث إصدار ثابت.
قم بتثبيته بالانتقال إلى الدليل الصحيح وتشغيل:
pip install -e .
يتم كتابة تقرير التوصيف بلغة HTML وCSS، مما يعني أنه يلزم وجود متصفح حديث.
أنت بحاجة إلى Python 3 لتشغيل الحزمة. يمكن العثور على تبعيات أخرى في ملفات المتطلبات:
اسم الملف | متطلبات |
---|---|
المتطلبات.txt | متطلبات الحزمة |
المتطلبات-dev.txt | متطلبات التطوير |
متطلبات اختبار.txt | متطلبات الاختبار |
setup.py | متطلبات الحاجيات الخ. |
لتعظيم فائدته في سياقات العالم الحقيقي، يحتوي ydata-profiling
على مجموعة من عمليات التكامل الضمنية والصريحة مع مجموعة متنوعة من الجهات الفاعلة الأخرى في النظام البيئي لعلوم البيانات:
نوع التكامل | وصف |
---|---|
مكتبات DataFrame الأخرى | كيفية حساب ملفات تعريف البيانات المخزنة في مكتبات أخرى غير الباندا |
توقعات عظيمة | إنشاء أجنحة توقعات رائعة مباشرة من تقرير التوصيف |
التطبيقات التفاعلية | تضمين تقارير ملفات التعريف في تطبيقات Streamlit أو Dash أو Panel |
خطوط الأنابيب | التكامل مع أدوات تنفيذ سير عمل DAG مثل Airflow أو Kedro |
الخدمات السحابية | استخدام ydata-profiling في خدمات الحساب المستضافة مثل Lambda أو Google Cloud أو Kaggle |
بيئة تطوير متكاملة | استخدام ydata-profiling مباشرة من بيئات التطوير المتكاملة مثل PyCharm |
بحاجة الى مساعدة؟ هل ترغب في مشاركة وجهة نظر؟ الإبلاغ عن خطأ؟ أفكار للتعاون؟ التواصل عبر القنوات التالية:
هل تحتاج إلى مساعدة؟
احصل على إجابات لأسئلتك مع مالك المنتج عن طريق حجز دردشة Pawsome! ؟
❗ قبل الإبلاغ عن مشكلة على GitHub، تحقق من المشكلات الشائعة.
تعرف على كيفية المشاركة في دليل المساهمة.
المكان المنخفض لطرح الأسئلة أو البدء في المساهمة هو Discord لمجتمع Data Centric AI.
شكراً جزيلاً لجميع المساهمين المذهلين!
جدار المساهمين مصنوع من contrib.rocks.