英语 |西班牙语 |法语 |德语 | 中文 |土耳其 | 日本语 | 한국어
PyGWalker可以通过将 pandas 数据框转变为用于视觉探索的交互式用户界面来简化 Jupyter Notebook 数据分析和数据可视化工作流程。
PyGWalker (发音像“Pig Walker”,只是为了好玩)被命名为“ Py thon binding of Graphic Walker ”的缩写。它将 Jupyter Notebook 与 Graphic Walker(Tableau 的开源替代方案)集成。它允许数据科学家通过简单的拖放操作甚至自然语言查询来可视化/清理/注释数据。
访问 Google Colab、Kaggle Code 或 Graphic Walker Online Demo 进行测试!
如果您更喜欢使用 R,请查看 GWalkR,Graphic Walker 的 R 包装器。
查看有关使用 pygwalker、pygwalker + Streamlit 和 pygwalker + Snowflake 的视频教程,如何在 Python 中使用 PyGWalker 探索数据
在 Kaggle 中运行 | 在 Colab 中运行 |
---|---|
在使用 pygwalker 之前,请确保使用 pip 或 conda 通过命令行安装软件包。
pip 安装 pygwalker
笔记
对于早期试用,您可以使用
pip install pygwalker --upgrade
进行安装,以使您的版本与最新版本保持同步,甚至可以pip install pygwalker --upgrade --pre
来获取最新功能和错误修复。
conda 安装-c conda-forge pygwalker
或者
曼巴安装-c conda-forge pygwalker
请参阅 conda-forge feedstock 以获取更多帮助。
将 pygwalker 和 pandas 导入您的 Jupyter Notebook 即可开始使用。
将 pandas 导入为 pd 将 pygwalker 导入为 pyg
您可以在不破坏现有工作流程的情况下使用 pygwalker。例如,您可以通过以下方式加载数据帧来调用 PyGWalker:
df = pd.read_csv('./bike_sharing_dc.csv')walker = pyg.walk(df)
就是这样。现在,您拥有一个交互式 UI,可以通过简单的拖放操作来分析和可视化数据。
使用 PyGwalker 可以做很酷的事情:
您可以将标记类型更改为其他类型以制作不同的图表,例如折线图:
要比较不同的度量,您可以通过将多个度量添加到行/列中来创建连续视图。
要制作多个子视图除以维度中的值的分面视图,请将维度放入行或列中以制作分面视图。
PyGWalker 包含一个强大的数据表,它提供了数据及其分布、分析的快速视图。您还可以添加过滤器或更改表中的数据类型。
您可以将数据探索结果保存到本地文件
使用 pygwalker 时您应该了解一些重要参数:
spec
:用于保存/加载图表配置(json 字符串或文件路径)
kernel_computation
:使用 duckdb 作为计算引擎,它允许您在本地计算机中更快地处理更大的数据集。
use_kernel_calc
:已弃用,请使用kernel_computation
代替。
df = pd.read_csv('./bike_sharing_dc.csv')walker = pyg.walk(df,spec="./chart_meta_0.json", # 这个json文件将保存你的图表状态,你需要点击ui中的保存按钮手动完成图表后,将来将支持“自动保存”。kernel_computation=True, # set `kernel_computation=True`, pygwalker将使用duckdb作为计算引擎,它支持您探索更大的数据集(<=100GB)。)
笔记本代码:点击这里
预览笔记本 Html:单击此处
在 Kaggle 中使用 PyGWalker
在 Google Colab 中使用 PyGWalker
Streamlit 允许您托管 pygwalker 的 Web 版本,而无需了解 Web 应用程序如何工作的详细信息。
以下是一些使用 pygwalker 和 Streamlit 构建的应用程序示例:
PyGWalker + Streamlit 用于自行车共享数据集
地震仪表板
from pygwalker.api.streamlit import StreamlitRendererimport pandas as pdimport Streamlit as st# 调整Streamlit page的宽度st.set_page_config(page_title="在Streamlit中使用Pygwalker",layout="wide")# 添加Titlest.title("在Streamlit中使用Pygwalker Streamlit")# 如果你不希望内存爆炸,你应该缓存你的 pygwalker 渲染器@st.cache_resourcedef get_pyg_renderer() -> "StreamlitRenderer":df = pd.read_csv("./bike_sharing_dc.csv")# 如果要使用保存图表配置的功能,请设置 `spec_io_mode="rw"`return StreamlitRenderer(df, spec= “./gw_config.json”,spec_io_mode =“rw”)渲染器= get_pyg_renderer()renderer.explorer()
范围 | 类型 | 默认 | 描述 |
---|---|---|---|
数据集 | 联合[数据框、连接器] | - | 要使用的数据框或连接器。 |
吉德 | 联合[int, str] | 没有任何 | GraphicWalker 容器 div 的 ID,格式为“gwalker-{gid}”。 |
环境 | 文字['Jupyter', 'JupyterWidget'] | 'JupyterWidget' | 使用pygwalker的环境。 |
字段规格 | 可选[Dict[str, FieldSpec]] | 没有任何 | 字段规范。如果未指定,将从dataset 集中自动推断。 |
隐藏数据源配置 | 布尔值 | 真的 | 如果为 True,则隐藏数据源导入和导出按钮。 |
主题键 | 文字['vega', 'g2'] | 'g2' | GraphicWalker 的主题类型。 |
外貌 | 文字['媒体'、'浅色'、'深色'] | '媒体' | 主题设置。 “媒体”将自动检测操作系统主题。 |
规格 | 斯特 | ”” | 图表配置数据。可以是配置 ID、JSON 或远程文件 URL。 |
使用预览 | 布尔值 | 真的 | 如果为 True,则使用预览功能。 |
内核计算 | 布尔值 | 错误的 | 如果为 True,则对数据使用内核计算。 |
**夸格 | 任何 | - | 附加关键字参数。 |
参考:本地开发
Jupyter笔记本
谷歌合作实验室
卡格尔代码
Jupyter实验室
Jupyter Lite
Databricks Notebook(自版本0.1.4a0
起)
Visual Studio Code 的 Jupyter 扩展(自版本0.1.4a0
起)
大多数 Web 应用程序与 IPython 内核兼容。 (自版本0.1.4a0
起)
Streamlit(自版本0.1.4.9
起) ,通过pyg.walk(df, env='Streamlit')
启用
DataCamp 工作区(自版本0.1.4a0
起)
控制板。请参阅面板图形步行器。
marimo(自版本0.4.9.11
起)
十六进制项目
...随意提出更多环境的问题。
您可以使用pygwalker config
来设置您的隐私配置。
$ pygwalker配置--帮助 用法: pygwalker config [-h] [--set [key=value ...]] [--reset [key ...]] [--reset-all] [--list] 修改配置文件。 (默认:~/Library/Application Support/pygwalker/config.json) 可用配置: - 隐私 ['offline', 'update-only', 'events'] (默认: events)。"offline": 完全离线,不发送数据或请求 api"update-only": 只检查这是否是一个新版本的pygwalker更新“事件”:分享有关pygwalker中使用哪个功能的事件,它仅包含有关您到达哪个功能以进行产品优化的事件数据。没有发送您分析的数据。事件数据将与唯一的 id 绑定,该 id 是由 pygwalker 在安装时根据时间戳生成的。我们不会收集有关您的任何其他信息。 - kanaries_token ['你的 kanaries 令牌'] (默认值:空字符串)。 您的 kanaries 令牌,您可以从 https://kanaries.net 获取。 请参阅:https://space.kanaries.net/t/how-to-get-api-key-of-kanaries。 通过 kanaries 令牌,您可以在 pygwalker 中使用 kanaries 服务,例如共享图表、共享配置。 选项:-h、--help 显示此帮助消息并退出 --set [键=值...] 设置配置。例如“pygwalker配置--设置隐私=仅更新” --reset [key ...] 重置用户配置并使用默认值。例如“pygwalker配置--重置隐私” --reset-all 重置所有用户配置并使用默认值。例如“pygwalker config --reset-all” --list 列出当前使用的配置。
更多详情,请参考:如何设置您的隐私配置?
阿帕奇许可证 2.0
PyGWalker 云发布!您现在可以将图表保存到云端、将交互式单元发布为 Web 应用程序并使用由 GPT 提供支持的高级功能。查看 PyGWalker Cloud 了解更多详细信息。
在 Kanaries PyGWalker 上查看有关 PyGWalker 的更多资源
PyGWalker 论文 PyGWalker:探索性可视化数据分析的即时助手
我们还在开发 RATH:一款开源、自动化的探索性数据分析软件,它通过人工智能驱动的自动化重新定义了数据整理、探索和可视化的工作流程。查看 Kanaries 网站和 RATH GitHub 了解更多信息!
Youtube:如何在 Python 中使用 PyGWalker 探索数据
使用pygwalker在streamlit中构建可视化分析应用程序
使用 panel-graphic-walker 通过 Panel 构建数据可视化应用程序。
如果您遇到任何问题并需要支持,请加入我们的 Discord 频道或在 github 上提出问题。
如果您喜欢,请在这些社交媒体平台上分享 pygwalker!