文檔 |不和諧 |堆疊溢位 |最新變更日誌
你喜歡這個項目嗎?向我們展示您的愛並提供回饋!
ydata-profiling
主要目標是在一致且快速的解決方案中提供單行探索性資料分析 (EDA) 體驗。與 pandas df.describe()
函數一樣,ydata-profiling 非常方便,它提供了 DataFrame 的擴展分析,同時允許以不同的格式(例如html和json )導出資料分析。
該套件輸出資料集的簡單且經過消化的分析,包括時間序列和文字。
正在尋找可以與您的資料庫系統完全整合的可擴展解決方案?
利用 YData Fabric 資料目錄連接到不同的資料庫和儲存(Oracle、snowflake、PostGreSQL、GCS、S3 等),並利用 Fabric 中的互動式和引導式分析體驗。查看社區版本。
pip install ydata-profiling
或者
conda install -c conda-forge ydata-profiling
首先像平常一樣載入 pandas DataFrame
,例如使用:
import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport
df = pd . DataFrame ( np . random . rand ( 100 , 5 ), columns = [ "a" , "b" , "c" , "d" , "e" ])
要產生標準分析報告,只需執行:
profile = ProfileReport ( df , title = "Profiling Report" )
該報告還包含三個附加部分:
Spark 支援已經發布,但我們一直在尋找額外的幫助?檢查當前正在進行的工作!
YData-profiling 可用於提供各種不同的用例。該文件包括解決這些問題的指南、提示和技巧:
使用案例 | 描述 |
---|---|
比較資料集 | 比較同一資料集的多個版本 |
分析時間序列資料集 | 使用一行程式碼產生時間序列資料集的報告 |
分析大型資料集 | 有關如何準備資料和配置ydata-profiling 以處理大型資料集的提示 |
處理敏感數據 | 產生注意輸入資料集中敏感資料的報告 |
資料集元資料和資料字典 | 使用資料集詳細資訊和特定於列的資料字典補充報告 |
自訂報告的外觀 | 變更報表頁面和所包含視覺化效果的外觀 |
分析資料庫 | 要在組織的資料庫中獲得無縫分析體驗,請檢查 Fabric 資料目錄,它允許使用來自不同類型儲存的數據,例如 RDBM(Azure SQL、PostGreSQL、Oracle 等)和物件儲存(Google Cloud Storage、AWS S3、雪花等)等。 |
Jupyter Notebook 中有兩個介面可以使用報告:透過小工具和透過嵌入式 HTML 報告。
上述內容是透過簡單地將報告顯示為一組小部件來實現的。在 Jupyter Notebook 中,運行:
profile . to_widgets ()
HTML 報表可以以類似的方式直接嵌入到儲存格中:
profile . to_notebook_iframe ()
若要產生 HTML 報告文件,請將ProfileReport
儲存到物件並使用to_file()
函數:
profile . to_file ( "your_report.html" )
或者,可以以 JSON 檔案形式取得報告資料:
# As a JSON string
json_data = profile . to_json ()
# As a file
profile . to_file ( "your_report.json" )
對於標準格式的 CSV 檔案(可以直接由 pandas 讀取,無需額外設定),可以在命令列中使用ydata_profiling
可執行檔。下面的範例透過處理data.csv
資料集,使用檔案report.html
中名為default.yaml
的設定檔產生名為Example Profiling Report 的報表。
ydata_profiling --title " Example Profiling Report " --config_file default.yaml data.csv report.html
有關 CLI 的更多詳細信息,請參閱文件。
以下範例報告展示了該套件在各種資料集和資料類型中的潛力:
文件中提供了其他詳細信息,包括有關小部件支援的信息。
您可以透過執行以下命令使用pip
套件管理器進行安裝:
pip install -U ydata-profiling
該套件聲明了“extras”,即附加相依性集。
[notebook]
:支援在 Jupyter 筆記本小工具中渲染報告。[unicode]
:支援更詳細的Unicode分析,但代價是額外的磁碟空間。[pyspark]
:支援 pyspark 進行大數據集分析安裝這些,例如
pip install -U ydata-profiling[notebook,unicode,pyspark]
您可以透過執行以下命令使用conda
套件管理器進行安裝:
conda install -c conda-forge ydata-profiling
透過複製儲存庫來下載原始程式碼,或按一下「下載 ZIP」來下載最新的穩定版本。
透過導航到正確的目錄並運行來安裝它:
pip install -e .
分析報告是用 HTML 和 CSS 編寫的,這意味著需要現代瀏覽器。
您需要 Python 3 來運行該套件。其他依賴項可以在需求文件中找到:
檔案名稱 | 要求 |
---|---|
要求.txt | 包裝要求 |
需求-dev.txt | 發展要求 |
需求測試.txt | 測試要求 |
安裝程式.py | 小部件等的要求 |
為了最大限度地發揮其在現實世界中的實用性, ydata-profiling
與資料科學生態系統中的各種其他參與者進行了一系列隱式和顯式整合:
一體化型 | 描述 |
---|---|
其他 DataFrame 庫 | 如何計算儲存在 pandas 以外的庫中的資料的分析 |
遠大的期望 | 直接從分析報告中產生遠大期望期望套件 |
互動應用 | 在 Streamlit、Dash 或 Panel 應用程式中嵌入分析報告 |
管道 | 與 Airflow 或 Kedro 等 DAG 工作流程執行工具集成 |
雲端服務 | 在 Lambda、Google Cloud 或 Kaggle 等託管運算服務中使用ydata-profiling |
IDE | 直接從整合開發環境(例如 PyCharm)使用ydata-profiling |
需要幫助嗎?想分享一個觀點嗎?報告錯誤?合作的想法?透過以下管道聯繫:
需要幫助嗎?
透過預約 Pawsome 聊天,讓產品負責人解答您的問題! ?
❗ 在 GitHub 上回報問題之前,請先查看常見問題。
了解如何參與貢獻指南。
以資料為中心的 AI 社群的 Discord 是一個提出問題或開始貢獻的低門檻場所。
非常感謝我們所有出色的貢獻者!
用 contrib.rocks 製作的貢獻者牆。