Kedro est une boîte à outils pour la science des données prête pour la production. Il utilise les meilleures pratiques d'ingénierie logicielle pour vous aider à créer des pipelines d'ingénierie des données et de science des données qui sont reproductibles, maintenables et modulaires. Vous pouvez en savoir plus sur kedro.org.
Kedro est un framework Python open source hébergé par la LF AI & Data Foundation.
Pour installer Kedro à partir de l'index Python Package Index (PYPI):
pip install kedro
Il est également possible d'installer Kedro en utilisant conda
:
conda install -c conda-forge kedro
Notre guide de démarrage contient des instructions d'installation complètes et comprend comment configurer des environnements virtuels Python.
Pour accéder à la dernière version Kedro avant sa version officielle, installez-la à partir de la branche main
.
pip install git+https://github.com/kedro-org/kedro@main
Fonctionnalité | Qu'est-ce que c'est? |
---|---|
Modèle de projet | Un modèle de projet standard, modifiable et facile à utiliser basé sur la science des données Cookietter. |
Catalogue de données | Une série de connecteurs de données légers utilisés pour enregistrer et charger des données sur de nombreux formats de fichiers et systèmes de fichiers différents, y compris les systèmes de fichiers locaux et réseau, les magasins d'objets cloud et les HDF. Le catalogue de données comprend également les données et le versioning du modèle pour les systèmes basés sur des fichiers. |
Abstraction de pipeline | Résolution automatique des dépendances entre les fonctions python purs et la visualisation du pipeline de données à l'aide de Kedro-viz. |
Normes de codage | Développement axé sur les tests à l'aide de pytest , produit du code bien documenté à l'aide de Sphinx, créez du code liné avec la prise en charge de ruff et utilisez la bibliothèque de journalisation Python standard. |
Déploiement flexible | Des stratégies de déploiement qui incluent le déploiement de machines uniques ou distribuées ainsi que la prise en charge supplémentaire du déploiement sur Argo, Prefect, Kubeflow, AWS Batch et Databricks. |
La documentation de Kedro explique d'abord comment installer Kedro, puis introduit des concepts Kedro clés.
Vous pouvez ensuite consulter le didacticiel Spaceflights pour construire un projet Kedro pour une expérience pratique.
Pour les utilisateurs nouveaux et intermédiaires de Kedro, il existe une section complète sur la façon de visualiser les projets Kedro à l'aide de Kedro-viz.
Une visualisation de pipeline générée à l'aide de kedro-viz
Une documentation supplémentaire explique comment travailler avec Kedro et Jupyter Notebooks, et il existe un ensemble de guides utilisateur avancés pour les fonctionnalités KEDRO avancées. Nous recommandons également la documentation de référence de l'API pour plus d'informations.
Kedro est construit sur nos meilleures pratiques collectives (et erreurs) essayant de fournir des applications ML du monde réel qui ont de grandes quantités de données brutes non adaptées. Nous avons développé Kedro pour réaliser ce qui suit:
Pour répondre aux principales lacunes des cahiers de jupyter, des scripts uniques et du code de colle, car l'accent est mis sur la création du code de science des données maintenable
Pour améliorer la collaboration de l'équipe lorsque différents membres de l'équipe ont une exposition variée aux concepts d'ingénierie logicielle
Pour accroître l'efficacité, car des concepts appliqués comme la modularité et la séparation des préoccupations inspirent la création d' un code d'analyse réutilisable
En savoir plus sur la façon dont Kedro peut répondre à vos cas d'utilisation de la FAQ du produit sur le site Web de Kedro.
L'équipe de produits Kedro et un certain nombre de contributeurs open source du monde entier maintiennent Kedro.
Oui! Nous accueillons toutes sortes de contributions. Consultez notre guide pour contribuer à Kedro.
Il y a une communauté croissante autour de Kedro. Nous vous encourageons à poser et à répondre aux questions techniques sur Slack et à mettre en signet les archives en lin des discussions passées.
Nous conservons une liste de FAQ techniques dans la documentation KEDRO et vous pouvez trouver une liste croissante de billets de blog, de vidéos et de projets qui utilisent Kedro sur le référentiel awesome-kedro
Github. Si vous avez créé quelque chose avec Kedro, nous aimerions l'inclure sur la liste. Faites simplement un RP pour l'ajouter!
Si vous êtes universitaire, Kedro peut également vous aider, par exemple, comme un outil pour résoudre le problème de la recherche reproductible. Utilisez le bouton "citer ce référentiel" de notre référentiel pour générer une citation à partir du fichier citation.cff.
Le Core Kedro Framework prend en charge toutes les versions Python qui sont activement maintenues par l'équipe CPYthon Core. Lorsqu'une version Python atteint la fin de vie, la prise en charge de cette version est supprimée de Kedro. Ce n'est pas considéré comme un changement de rupture.
Le package de données KEDRO suit la stratégie de support de version NEP 29 Python. Cela signifie que kedro-datasets
baisse généralement la prise en charge de la version Python avant kedro
. En effet, kedro-datasets
a de nombreuses dépendances qui suivent NEP 29 et l'approche de support de version plus conservatrice du cadre Kedro rend difficile la gestion de ces dépendances.
Nous apprécions notre communauté et voulons rester connectés. Pour cela, nous proposons un format de chat au café public où nous partageons des mises à jour et des trucs cool autour de Kedro une fois toutes les deux semaines et vous donnons le temps de poser vos questions en direct.
Consultez les prochains sujets de démonstration et dates sur la page Wiki Kedro Coffee Chat.
Suivez notre canal d'annonce de Slack pour voir les annonces de chat au café Kedro et les enregistrements de démonstration d'accès.