文档 |不和谐|堆栈溢出 |最新变更日志
你喜欢这个项目吗?向我们展示您的爱并提供反馈!
ydata-profiling
主要目标是在一致且快速的解决方案中提供单行探索性数据分析 (EDA) 体验。与 pandas df.describe()
函数一样,ydata-profiling 非常方便,它提供了 DataFrame 的扩展分析,同时允许以不同的格式(例如html和json )导出数据分析。
该包输出数据集的简单且经过消化的分析,包括时间序列和文本。
正在寻找可以与您的数据库系统完全集成的可扩展解决方案?
利用 YData Fabric 数据目录连接到不同的数据库和存储(Oracle、snowflake、PostGreSQL、GCS、S3 等),并利用 Fabric 中的交互式和引导式分析体验。查看社区版本。
pip install ydata-profiling
或者
conda install -c conda-forge ydata-profiling
首先像平常一样加载 pandas DataFrame
,例如使用:
import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport
df = pd . DataFrame ( np . random . rand ( 100 , 5 ), columns = [ "a" , "b" , "c" , "d" , "e" ])
要生成标准分析报告,只需运行:
profile = ProfileReport ( df , title = "Profiling Report" )
该报告还包含三个附加部分:
Spark 支持已经发布,但我们一直在寻找额外的帮助?检查当前正在进行的工作!
YData-profiling 可用于提供各种不同的用例。该文档包括解决这些问题的指南、提示和技巧:
使用案例 | 描述 |
---|---|
比较数据集 | 比较同一数据集的多个版本 |
分析时间序列数据集 | 使用一行代码生成时间序列数据集的报告 |
分析大型数据集 | 有关如何准备数据和配置ydata-profiling 以处理大型数据集的提示 |
处理敏感数据 | 生成注意输入数据集中敏感数据的报告 |
数据集元数据和数据字典 | 使用数据集详细信息和特定于列的数据字典补充报告 |
自定义报告的外观 | 更改报表页面和所包含可视化效果的外观 |
分析数据库 | 要在组织的数据库中获得无缝分析体验,请检查 Fabric 数据目录,它允许使用来自不同类型存储的数据,例如 RDBM(Azure SQL、PostGreSQL、Oracle 等)和对象存储(Google Cloud Storage、AWS S3、雪花等)等。 |
Jupyter Notebook 中有两个界面可以使用报告:通过小部件和通过嵌入式 HTML 报告。
上述内容是通过简单地将报告显示为一组小部件来实现的。在 Jupyter Notebook 中,运行:
profile . to_widgets ()
HTML 报告可以以类似的方式直接嵌入到单元格中:
profile . to_notebook_iframe ()
要生成 HTML 报告文件,请将ProfileReport
保存到对象并使用to_file()
函数:
profile . to_file ( "your_report.html" )
或者,可以以 JSON 文件形式获取报告数据:
# As a JSON string
json_data = profile . to_json ()
# As a file
profile . to_file ( "your_report.json" )
对于标准格式的 CSV 文件(可以直接由 pandas 读取,无需额外设置),可以在命令行中使用ydata_profiling
可执行文件。下面的示例通过处理data.csv
数据集,使用文件report.html
中名为default.yaml
的配置文件生成名为Example Profiling Report 的报告。
ydata_profiling --title " Example Profiling Report " --config_file default.yaml data.csv report.html
有关 CLI 的更多详细信息,请参阅文档。
以下示例报告展示了该包在各种数据集和数据类型中的潜力:
文档中提供了其他详细信息,包括有关小部件支持的信息。
您可以通过运行以下命令使用pip
包管理器进行安装:
pip install -U ydata-profiling
该包声明了“extras”,即附加依赖项集。
[notebook]
:支持在 Jupyter 笔记本小部件中渲染报告。[unicode]
:支持更详细的Unicode分析,但代价是额外的磁盘空间。[pyspark]
:支持 pyspark 进行大数据集分析安装这些,例如
pip install -U ydata-profiling[notebook,unicode,pyspark]
您可以通过运行以下命令使用conda
包管理器进行安装:
conda install -c conda-forge ydata-profiling
通过克隆存储库来下载源代码,或单击“下载 ZIP”来下载最新的稳定版本。
通过导航到正确的目录并运行来安装它:
pip install -e .
分析报告是用 HTML 和 CSS 编写的,这意味着需要现代浏览器。
您需要 Python 3 来运行该包。其他依赖项可以在需求文件中找到:
文件名 | 要求 |
---|---|
要求.txt | 包装要求 |
需求-dev.txt | 发展要求 |
需求测试.txt | 测试要求 |
安装程序.py | 小部件等的要求 |
为了最大限度地发挥其在现实世界中的实用性, ydata-profiling
与数据科学生态系统中的各种其他参与者进行了一系列隐式和显式集成:
一体化型 | 描述 |
---|---|
其他 DataFrame 库 | 如何计算存储在 pandas 以外的库中的数据的分析 |
远大的期望 | 直接从分析报告中生成远大期望期望套件 |
互动应用 | 在 Streamlit、Dash 或 Panel 应用程序中嵌入分析报告 |
管道 | 与 Airflow 或 Kedro 等 DAG 工作流执行工具集成 |
云服务 | 在 Lambda、Google Cloud 或 Kaggle 等托管计算服务中使用ydata-profiling |
IDE | 直接从集成开发环境(例如 PyCharm)使用ydata-profiling |
需要帮助吗?想分享一个观点吗?报告错误?合作的想法?通过以下渠道联系:
需要帮助吗?
通过预约 Pawsome 聊天,让产品负责人解答您的问题! ?
❗ 在 GitHub 上报告问题之前,请查看常见问题。
了解如何参与贡献指南。
以数据为中心的 AI 社区的 Discord 是一个提出问题或开始贡献的低门槛场所。
非常感谢我们所有出色的贡献者!
用 contrib.rocks 制作的贡献者墙。