该存储库以(免费!)Jupyter 笔记本的形式包含整个 Python 数据科学手册。
在线阅读本书全文:https://jakevdp.github.io/PythonDataScienceHandbook/
使用此存储库的笔记本目录中提供的 Jupyter 笔记本运行代码。
使用 Google Colab 启动这些笔记本的可执行版本:
使用活页夹启动包含这些笔记本的实时笔记本服务器:
通过 O'Reilly Media 购买印刷版书籍
本书是使用 Python 3.5 编写和测试的,尽管其他 Python 版本(包括 Python 2.7)应该适用于几乎所有情况。
本书介绍了在 Python 中处理数据所必需的核心库:特别是 IPython、NumPy、Pandas、Matplotlib、Scikit-Learn 和相关包。假设您熟悉 Python 语言;如果您需要快速介绍该语言本身,请参阅免费的配套项目“Python 旋风之旅”:这是针对研究人员和科学家的 Python 语言的快速介绍。
请参阅 Index.ipynb 以获取可与文本一起使用的笔记本的索引。
书中的代码使用 Python 3.5 进行了测试,尽管大多数(但不是全部)也可以在 Python 2.7 和其他较旧的 Python 版本中正常工作。
我用来运行书中代码的包列在requirements.txt中(请注意,其中一些确切的版本号可能在您的平台上不可用:您可能需要调整它们以供自己使用)。要使用 conda 安装要求,请在命令行中运行以下命令:
$ conda install --file requirements.txt
要使用 Python 3.5 和所有必需的包版本创建名为PDSH
的独立环境,请运行以下命令:
$ conda create -n PDSH python=3.5 --file requirements.txt
您可以在 conda 文档的管理环境部分中阅读有关使用 conda 环境的更多信息。
此存储库中的代码(包括上面列出的笔记本中的所有代码示例)是根据 MIT 许可证发布的。在开源计划中了解更多信息。
本书的文本内容是在 CC-BY-NC-ND 许可下发布的。在知识共享上阅读更多内容。