Dokumentation | Zwietracht | Stapelüberlauf | Neuestes Änderungsprotokoll
Gefällt Ihnen dieses Projekt? Zeigen Sie uns Ihre Liebe und geben Sie Feedback!
Das Hauptziel ydata-profiling
besteht darin, eine einheitliche explorative Datenanalyse (EDA) in einer konsistenten und schnellen Lösung bereitzustellen. Wie die praktische df.describe()
Funktion von Panda liefert ydata-profiling eine erweiterte Analyse eines DataFrames und ermöglicht gleichzeitig den Export der Datenanalyse in verschiedene Formate wie HTML und JSON .
Das Paket gibt eine einfache und ausführliche Analyse eines Datensatzes aus, einschließlich Zeitreihen und Text .
Suchen Sie nach einer skalierbaren Lösung, die sich vollständig in Ihre Datenbanksysteme integrieren lässt?
Nutzen Sie YData Fabric Data Catalog, um eine Verbindung zu verschiedenen Datenbanken und Speichern (Oracle, Snowflake, PostGreSQL, GCS, S3 usw.) herzustellen und ein interaktives und geführtes Profiling-Erlebnis in Fabric zu nutzen. Schauen Sie sich die Community-Version an.
pip install ydata-profiling
oder
conda install -c conda-forge ydata-profiling
Beginnen Sie damit, Ihren Pandas DataFrame
wie gewohnt zu laden, z. B. mit:
import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport
df = pd . DataFrame ( np . random . rand ( 100 , 5 ), columns = [ "a" , "b" , "c" , "d" , "e" ])
Um den Standard-Profiling-Bericht zu erstellen, führen Sie einfach Folgendes aus:
profile = ProfileReport ( df , title = "Profiling Report" )
Der Bericht enthält drei zusätzliche Abschnitte:
Der Spark-Support wurde freigegeben, aber wir sind immer auf der Suche nach einem zusätzlichen Paar Hände? Schauen Sie sich die aktuellen Arbeiten an!
YData-Profiling kann verwendet werden, um eine Vielzahl unterschiedlicher Anwendungsfälle bereitzustellen. Die Dokumentation enthält Anleitungen, Tipps und Tricks zur Bewältigung dieser Probleme:
Anwendungsfall | Beschreibung |
---|---|
Vergleich von Datensätzen | Vergleich mehrerer Versionen desselben Datensatzes |
Profilerstellung für einen Zeitreihendatensatz | Generieren eines Berichts für einen Zeitreihendatensatz mit einer einzigen Codezeile |
Profilerstellung für große Datensätze | Tipps zum Vorbereiten von Daten und zum Konfigurieren von ydata-profiling für die Arbeit mit großen Datensätzen |
Umgang mit sensiblen Daten | Erstellen von Berichten, die sensible Daten im Eingabedatensatz berücksichtigen |
Datensatzmetadaten und Datenwörterbücher | Ergänzen Sie den Bericht mit Datensatzdetails und spaltenspezifischen Datenwörterbüchern |
Anpassen des Erscheinungsbilds des Berichts | Ändern des Erscheinungsbilds der Berichtsseite und der enthaltenen Visualisierungen |
Profilierungsdatenbanken | Für eine nahtlose Profilerstellung in den Datenbanken Ihrer Organisation prüfen Sie den Fabric Data Catalog, der die Nutzung von Daten aus verschiedenen Speichertypen wie RDBMs (Azure SQL, PostGreSQL, Oracle usw.) und Objektspeichern (Google Cloud Storage, AWS S3, Schneeflocke usw.), unter anderem. |
Es gibt zwei Schnittstellen, um den Bericht in einem Jupyter-Notebook zu nutzen: über Widgets und über einen eingebetteten HTML-Bericht.
Dies wird erreicht, indem der Bericht einfach als eine Reihe von Widgets angezeigt wird. Führen Sie in einem Jupyter-Notebook Folgendes aus:
profile . to_widgets ()
Der HTML-Bericht kann auf ähnliche Weise direkt in eine Zelle eingebettet werden:
profile . to_notebook_iframe ()
Um eine HTML-Berichtsdatei zu generieren, speichern Sie den ProfileReport
in einem Objekt und verwenden Sie die Funktion to_file()
:
profile . to_file ( "your_report.html" )
Alternativ können die Daten des Berichts auch als JSON-Datei bezogen werden:
# As a JSON string
json_data = profile . to_json ()
# As a file
profile . to_file ( "your_report.json" )
Für standardmäßig formatierte CSV-Dateien (die ohne zusätzliche Einstellungen direkt von Pandas gelesen werden können) kann die ausführbare Datei ydata_profiling
in der Befehlszeile verwendet werden. Das folgende Beispiel generiert einen Bericht mit dem Namen „Example Profiling Report“ mithilfe einer Konfigurationsdatei namens default.yaml
in der Datei „ report.html
durch Verarbeitung eines data.csv
Datensatzes.
ydata_profiling --title " Example Profiling Report " --config_file default.yaml data.csv report.html
Weitere Details zur CLI finden Sie in der Dokumentation.
Die folgenden Beispielberichte veranschaulichen die Möglichkeiten des Pakets für eine Vielzahl von Datensätzen und Datentypen:
Weitere Details, einschließlich Informationen zur Widget-Unterstützung, finden Sie in der Dokumentation.
Sie können die Installation mit dem pip
Paketmanager durchführen, indem Sie Folgendes ausführen:
pip install -U ydata-profiling
Das Paket deklariert „Extras“, Sätze zusätzlicher Abhängigkeiten.
[notebook]
: Unterstützung für die Darstellung des Berichts in Jupyter-Notebook-Widgets.[unicode]
: Unterstützung für eine detailliertere Unicode-Analyse, auf Kosten von zusätzlichem Speicherplatz.[pyspark]
: Unterstützung für pyspark für die Analyse großer DatensätzeInstallieren Sie diese z. B. mit
pip install -U ydata-profiling[notebook,unicode,pyspark]
Sie können die Installation mit dem conda
Paketmanager durchführen, indem Sie Folgendes ausführen:
conda install -c conda-forge ydata-profiling
Laden Sie den Quellcode herunter, indem Sie das Repository klonen, oder klicken Sie auf ZIP herunterladen, um die neueste stabile Version herunterzuladen.
Installieren Sie es, indem Sie zum richtigen Verzeichnis navigieren und Folgendes ausführen:
pip install -e .
Der Profiling-Bericht ist in HTML und CSS geschrieben, was bedeutet, dass ein moderner Browser erforderlich ist.
Sie benötigen Python 3, um das Paket auszuführen. Weitere Abhängigkeiten finden Sie in den Anforderungsdateien:
Dateiname | Anforderungen |
---|---|
Anforderungen.txt | Paketanforderungen |
Anforderungen-dev.txt | Anforderungen an die Entwicklung |
Anforderungen-test.txt | Anforderungen zum Testen |
setup.py | Anforderungen an Widgets etc. |
Um seinen Nutzen in realen Kontexten zu maximieren, verfügt ydata-profiling
über eine Reihe impliziter und expliziter Integrationen mit einer Vielzahl anderer Akteure im Data Science-Ökosystem:
Integrationstyp | Beschreibung |
---|---|
Andere DataFrame-Bibliotheken | So berechnen Sie die Profilerstellung von Daten, die in anderen Bibliotheken als Pandas gespeichert sind |
Große Erwartungen | Generieren Sie Great Expectations-Erwartungspakete direkt aus einem Profiling-Bericht |
Interaktive Anwendungen | Einbetten von Profiling-Berichten in Streamlit-, Dash- oder Panel-Anwendungen |
Pipelines | Integration mit DAG-Workflow-Ausführungstools wie Airflow oder Kedro |
Cloud-Dienste | Verwendung von ydata-profiling in gehosteten Berechnungsdiensten wie Lambda, Google Cloud oder Kaggle |
IDEs | Verwendung von ydata-profiling direkt aus integrierten Entwicklungsumgebungen wie PyCharm |
Brauchen Sie Hilfe? Möchten Sie eine Perspektive teilen? Einen Fehler melden? Ideen für Kooperationen? Erreichen Sie uns über die folgenden Kanäle:
Brauchen Sie Hilfe?
Erhalten Sie Antworten auf Ihre Fragen mit einem Produktbesitzer, indem Sie einen Pawsome-Chat buchen! ?
❗ Bevor Sie ein Problem auf GitHub melden, schauen Sie sich „Häufige Probleme“ an.
Erfahren Sie, wie Sie sich am Beitragsleitfaden beteiligen können.
Ein niedrigschwelliger Ort, um Fragen zu stellen oder Beiträge zu leisten, ist Discord der Data Centric AI Community.
Ein großes Dankeschön an alle unsere großartigen Mitwirkenden!
Mitwirkende Pinnwand erstellt mit contrib.rocks.