Kedro是用于生产就绪数据科学的工具箱。它使用软件工程最佳实践来帮助您创建可重复,可维护和模块化的数据工程和数据科学管道。您可以在kedro.org上找到更多信息。
Kedro是由LF AI&Data Foundation托管的开源Python框架。
从Python软件包索引(PYPI)安装Kedro:运行:
pip install kedro
也可以使用conda
安装kedro:
conda install -c conda-forge kedro
我们的“入门指南”包含完整的安装说明,包括如何设置Python虚拟环境。
要在其正式版本之前访问最新的Kedro版本,请从main
分支中安装它。
pip install git+https://github.com/kedro-org/kedro@main
特征 | 这是什么? |
---|---|
项目模板 | 基于CookieCutter数据科学的标准,可修改且易于使用的项目模板。 |
数据目录 | 一系列轻巧的数据连接器,用于在许多不同的文件格式和文件系统上保存和加载数据,包括本地和网络文件系统,云对象存储和HDF。数据目录还包括用于基于文件的系统的数据和模型版本。 |
管道抽象 | 使用Kedro-Viz自动解析纯Python函数与数据管道可视化之间的依赖关系。 |
编码标准 | 使用pytest 进行测试驱动的开发,使用Sphinx生成据可记录的代码,创建牵引的代码并支持ruff 并使用标准Python日志记录库。 |
灵活的部署 | 部署策略包括单个或分布式机器部署以及在Argo,Perfect,Kubeflow,AWS Batch和Databricks上部署的其他支持。 |
Kedro文档首先说明了如何安装Kedro,然后引入关键Kedro概念。
然后,您可以查看SpaceFlights教程,以构建一个Kedro项目以进行动手体验。
对于新的和中级Kedro用户,有一个综合部分,讲述了如何使用Kedro-viz可视化Kedro项目。
使用kedro-viz生成的管道可视化
其他文档说明了如何使用Kedro和Jupyter笔记本电脑,并且有一组高级用户指南用于高级Kedro功能。我们还建议API参考文档以获取更多信息。
Kedro建立在我们的集体最佳实践(和错误)上,试图传递具有大量原始未经审查数据的现实世界中的ML应用程序。我们开发了Kedro以实现以下事情:
解决Jupyter笔记本,一次性脚本和胶编码的主要缺点,因为有重点是创建可维护的数据科学代码
当不同的团队成员接触软件工程概念时,可以增强团队协作
提高效率,因为应用概念(例如模块化和关注点的分离)激发了可重复使用的分析代码的创建
了解有关Kedro如何从Kedro网站上的产品常见问题解答的更多信息。
Kedro产品团队和来自世界各地的许多开源贡献者维持Kedro。
是的!我们欢迎各种贡献。查看我们向Kedro贡献的指南。
Kedro周围有一个不断增长的社区。我们鼓励您询问并回答有关Slack的技术问题,并在过去的讨论中添加亚麻档案。
我们在KEDRO文档中保留了技术常见问题解答列表,您可以找到越来越多的博客文章,视频和项目列表,这些列表在awesome-kedro
Github存储库中使用Kedro。如果您与Kedro创建了任何东西,我们很乐意将其包括在列表中。只需添加公关即可!
如果您是学术界,Kedro也可以帮助您作为解决可再现研究问题的工具。使用我们存储库上的“引用此存储库”按钮来生成citation.cff文件的引用。
核心Kedro框架支持Cpython Core团队积极维护的所有Python版本。当Python版本达到生命的尽头时,对该版本的支持将从Kedro删除。这不是破裂的变化。
Kedro数据集软件包遵循NEP 29 Python版本支持策略。这意味着kedro-datasets
通常会在kedro
之前删除Python版本的支持。这是因为kedro-datasets
具有许多遵循NEP 29的依赖关系,而Kedro框架的更保守的版本支持方法使得很难正确管理这些依赖关系。
我们感谢我们的社区,并希望保持联系。为此,我们提供公共咖啡聊天格式,我们每两周一次在Kedro周围分享更新和酷炫的东西,并给您时间直播您的问题。
在Kedro Coffee Chat Wiki页面上查看即将到来的演示主题和日期。
遵循我们的Slack公告频道,查看Kedro Coffee聊天公告和访问演示录音。