测试 | |
包裹 | |
元 |
pandas是一个 Python 包,它提供快速、灵活且富有表现力的数据结构,旨在使“关系”或“标记”数据的处理变得简单直观。它的目标是成为用 Python 进行实际、真实世界数据分析的基本高级构建块。此外,它还有更广泛的目标,即成为任何语言中最强大、最灵活的开源数据分析/操作工具。它已经在朝着这个目标前进。
主要特点
哪里可以得到它
依赖关系
从源安装
执照
文档
背景
寻求帮助
讨论与发展
为熊猫做贡献
以下是 pandas 擅长的一些事情:
轻松处理浮点和非浮点数据中的缺失数据(表示为NaN
、 NA
或NaT
)
大小可变性:可以从 DataFrame 和更高维对象中插入和删除列
自动和显式数据对齐:对象可以显式地与一组标签对齐,或者用户可以简单地忽略标签并让Series
、 DataFrame
等在计算中自动为您对齐数据
强大、灵活的分组功能,可对数据集执行拆分-应用-组合操作,以聚合和转换数据
可以轻松地将其他 Python 和 NumPy 数据结构中的不规则、不同索引的数据转换为 DataFrame 对象
基于智能标签的切片、花式索引和大数据集的子集
直观的合并和连接数据集
数据集的灵活重塑和旋转
轴的分层标签(每个刻度可能有多个标签)
强大的 IO 工具,用于从平面文件(CSV 和分隔)、 Excel 文件、数据库加载数据,以及从超快HDF5 格式保存/加载数据
时间序列特定功能:日期范围生成和频率转换、移动窗口统计、日期平移和滞后
源代码目前托管在 GitHub 上:https://github.com/pandas-dev/pandas
最新发布版本的二进制安装程序可在 Python 包索引 (PyPI) 和 Conda 上找到。
# condaconda install -c conda-forge pandas
# 或 PyPIpip 安装 pandas
可以在此处找到每个版本之间 pandas 的更改列表。有关完整详细信息,请参阅 https://github.com/pandas-dev/pandas 上的提交日志。
NumPy - 添加对大型多维数组、矩阵和高级数学函数的支持以对这些数组进行操作
python-dateutil - 为标准日期时间模块提供强大的扩展
pytz - 将 Olson tz 数据库引入 Python,允许准确的跨平台时区计算
请参阅完整的安装说明,了解所需、推荐和可选依赖项的最低支持版本。
要从源安装 pandas,除了上面的正常依赖项之外,您还需要 Cython。 Cython 可以从 PyPI 安装:
pip 安装 cython
在pandas
目录(与克隆 git 存储库后找到此文件的目录相同)中,执行:
点安装。
或者以开发模式安装:
python -m pip install -ve 。 --no-build-isolation -Ceditable-verbose=true
请参阅从源安装的完整说明。
BSD 3
官方文档托管在 PyData.org 上。
AQR(量化对冲基金)于 2008 年开始对pandas
进行研究,此后一直在积极开发中。
对于使用问题,最好的地方是 StackOverflow。此外,一般问题和讨论也可以在 pydata 邮件列表上进行。
大多数开发讨论都是通过 GitHub 问题跟踪器在此存储库中的 GitHub 上进行的。
此外,pandas-dev 邮件列表还可以用于专门讨论或设计问题,并且 Slack 频道可用于快速开发相关问题。
还经常向社区开放项目维护者社区会议,以及每月举行的新贡献者会议以帮助支持新贡献者。
有关沟通渠道的更多信息可以在贡献者社区页面上找到。
欢迎所有贡献、错误报告、错误修复、文档改进、增强和想法。
有关如何贡献的详细概述可以在贡献指南中找到。
如果您只是想开始使用 pandas 代码库,请导航到 GitHub“问题”选项卡并开始查找有趣的问题。文档下列出了许多问题,您可以从第一个问题开始。
您还可以对问题进行分类,其中可能包括重现错误报告,或询问版本号或重现说明等重要信息。如果您想开始对问题进行分类,一种简单的入门方法是在 CodeTriage 上订阅 pandas。
或者也许通过使用 pandas,您有自己的想法,或者正在文档中寻找某些内容并认为“这可以改进”...您可以对此做一些事情!
请随时在邮件列表或 Slack 上提问。
作为该项目的贡献者和维护者,您应该遵守 pandas 的行为准则。更多信息请参见:贡献者行为准则
转到顶部