ドキュメント |不和 |スタックオーバーフロー |最新の変更履歴
このプロジェクトは好きですか?あなたの愛を示し、フィードバックをお寄せください。
ydata-profiling
主な目標は、一貫した高速ソリューションで 1 行の探索的データ分析 (EDA) エクスペリエンスを提供することです。非常に便利な pandas df.describe()
関数と同様に、ydata-profiling は DataFrame の拡張分析を提供し、データ分析をhtmlやjsonなどのさまざまな形式でエクスポートできるようにします。
このパッケージは、時系列やテキストを含む、データセットのシンプルでダイジェストな分析を出力します。
データベース システムと完全に統合できるスケーラブルなソリューションをお探しですか?
YData Fabric データ カタログを活用して、さまざまなデータベースやストレージ (Oracle、snowflake、PostGreSQL、GCS、S3 など) に接続し、Fabric でのインタラクティブでガイド付きのプロファイリング エクスペリエンスを活用します。コミュニティバージョンをチェックしてください。
pip install ydata-profiling
または
conda install -c conda-forge ydata-profiling
通常どおりに、たとえば以下を使用して pandas DataFrame
ロードすることから始めます。
import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport
df = pd . DataFrame ( np . random . rand ( 100 , 5 ), columns = [ "a" , "b" , "c" , "d" , "e" ])
標準プロファイリング レポートを生成するには、次を実行するだけです。
profile = ProfileReport ( df , title = "Profiling Report" )
レポートには、次の 3 つの追加セクションが含まれています。
Spark のサポートはリリースされましたが、私たちは常に追加の人材を探しています。現在進行中の作業を確認してください。
YData プロファイリングを使用して、さまざまな異なるユースケースを提供できます。ドキュメントには、それらに取り組むためのガイド、ヒント、コツが含まれています。
使用事例 | 説明 |
---|---|
データセットの比較 | 同じデータセットの複数のバージョンを比較する |
時系列データセットのプロファイリング | 1 行のコードで時系列データセットのレポートを生成する |
大規模なデータセットのプロファイリング | 大規模なデータセットを操作するためにデータを準備し、 ydata-profiling を構成する方法に関するヒント |
機密データの取り扱い | 入力データセット内の機密データに注意したレポートの生成 |
データセットのメタデータとデータ ディクショナリ | データセットの詳細と列固有のデータ ディクショナリでレポートを補完する |
レポートの外観のカスタマイズ | レポートのページおよび含まれるビジュアライゼーションの外観の変更 |
データベースのプロファイリング | 組織のデータベースでシームレスなプロファイリング エクスペリエンスを実現するには、ファブリック データ カタログを確認してください。これにより、RDBM (Azure SQL、PostGreSQL、Oracle など) やオブジェクト ストレージ (Google Cloud Storage、AWS S3、スノーフレークなど)など。 |
Jupyter ノートブック内でレポートを使用するには、ウィジェットを使用するインターフェイスと、埋め込み HTML レポートを使用するインターフェイスの 2 つがあります。
上記は、レポートをウィジェットのセットとして表示するだけで実現されます。 Jupyter Notebook で、次を実行します。
profile . to_widgets ()
HTML レポートは、同様の方法でセルに直接埋め込むことができます。
profile . to_notebook_iframe ()
HTML レポート ファイルを生成するには、 ProfileReport
オブジェクトに保存し、 to_file()
関数を使用します。
profile . to_file ( "your_report.html" )
あるいは、レポートのデータを JSON ファイルとして取得することもできます。
# As a JSON string
json_data = profile . to_json ()
# As a file
profile . to_file ( "your_report.json" )
標準形式の CSV ファイル (追加設定なしで pandas で直接読み取ることができます) の場合は、コマンド ラインでydata_profiling
実行可能ファイルを使用できます。以下の例では、 data.csv
データセットを処理することで、ファイルreport.html
内のdefault.yaml
という構成ファイルを使用して、 Example Profiling Reportという名前のレポートを生成します。
ydata_profiling --title " Example Profiling Report " --config_file default.yaml data.csv report.html
CLI の詳細については、ドキュメントを参照してください。
次のレポート例は、幅広いデータセットとデータ型にわたるパッケージの可能性を示しています。
ウィジェットのサポートに関する情報を含む追加の詳細については、ドキュメントを参照してください。
次のコマンドを実行すると、 pip
パッケージ マネージャーを使用してインストールできます。
pip install -U ydata-profiling
パッケージは、追加の依存関係のセットである「エクストラ」を宣言します。
[notebook]
: Jupyter ノートブック ウィジェットでのレポートのレンダリングのサポート。[unicode]
: 追加のディスク容量を犠牲にして、より詳細な Unicode 分析をサポートします。[pyspark]
: ビッグ データセット分析のための pyspark のサポートこれらを次のようにインストールします。
pip install -U ydata-profiling[notebook,unicode,pyspark]
次のコマンドを実行すると、 conda
パッケージ マネージャーを使用してインストールできます。
conda install -c conda-forge ydata-profiling
リポジトリのクローンを作成してソース コードをダウンロードするか、[Download ZIP] をクリックして最新の安定バージョンをダウンロードします。
適切なディレクトリに移動し、次を実行してインストールします。
pip install -e .
プロファイリング レポートは HTML と CSS で記述されているため、最新のブラウザが必要です。
パッケージを実行するには Python 3 が必要です。他の依存関係は要件ファイルにあります。
ファイル名 | 要件 |
---|---|
要件.txt | パッケージ要件 |
要件-dev.txt | 開発要件 |
要件-テスト.txt | テストの要件 |
setup.py | ウィジェットなどの要件 |
実世界のコンテキストでの有用性を最大限に高めるために、 ydata-profiling
は、データ サイエンス エコシステム内の他のさまざまなアクターとの一連の暗黙的および明示的な統合があります。
一体型 | 説明 |
---|---|
その他のデータフレーム ライブラリ | pandas 以外のライブラリに格納されているデータのプロファイリングを計算する方法 |
大きな期待 | プロファイリング レポートから直接 Great Expectations 期待スイートを生成する |
インタラクティブなアプリケーション | Streamlit、Dash、またはPanelアプリケーションへのプロファイリングレポートの埋め込み |
パイプライン | Airflow や Kedro などの DAG ワークフロー実行ツールとの統合 |
クラウドサービス | Lambda、Google Cloud、Kaggle などのホスト型コンピューティング サービスでのydata-profiling の使用 |
IDE | PyCharm などの統合開発環境からydata-profiling 直接使用する |
助けが必要ですか?視点を共有したいですか?バグを報告しますか?コラボレーションのアイデアはありますか?次のチャネルを通じて連絡してください。
助けが必要ですか?
Pawsome チャットを予約して、製品所有者に質問に答えてもらいましょう! ?
❗ GitHub で問題を報告する前に、よくある問題を確認してください。
貢献ガイドに参加する方法を学びましょう。
質問したり、貢献を開始したりできる敷居の低い場所は、データ セントリック AI コミュニティの Discord です。
素晴らしい貢献者の皆様に心より感謝いたします。
contrib.rocks で作成された寄稿者の壁。