Outils d'analyse visuelle et de diagnostic pour faciliter la sélection de modèles d'apprentissage automatique.
Yellowbrick est une suite d'outils de diagnostic visuel appelés « Visualiseurs » qui étendent l'API scikit-learn pour permettre un pilotage humain du processus de sélection du modèle. En un mot, Yellowbrick combine scikit-learn avec matplotlib dans la meilleure tradition de la documentation scikit-learn, mais pour produire des visualisations pour votre flux de travail d'apprentissage automatique !
Pour une documentation complète sur l'API Yellowbrick, une galerie de visualiseurs disponibles, le guide du contributeur, des didacticiels et des ressources pédagogiques, des questions fréquemment posées et bien plus encore, veuillez visiter notre documentation sur www.scikit-yb.org.
Yellowbrick est compatible avec Python 3.4 ou version ultérieure et dépend également de scikit-learn et matplotlib. Le moyen le plus simple d'installer Yellowbrick et ses dépendances consiste à utiliser PyPI avec pip, le programme d'installation de packages préféré de Python.
$ pip install yellowbrick
Notez que Yellowbrick est un projet actif et publie régulièrement de nouvelles versions avec plus de visualiseurs et de mises à jour. Afin de mettre à niveau Yellowbrick vers la dernière version, utilisez pip comme suit.
$ pip install -U yellowbrick
Vous pouvez également utiliser l'indicateur -U
pour mettre à jour scikit-learn, matplotlib ou tout autre utilitaire tiers qui fonctionne bien avec Yellowbrick vers leurs dernières versions.
Si vous utilisez Anaconda (recommandé pour les utilisateurs Windows), vous pouvez profiter de l'utilitaire conda pour installer Yellowbrick :
conda install -c districtdatalabs yellowbrick
L'API Yellowbrick est spécialement conçue pour fonctionner correctement avec scikit-learn. Voici un exemple de séquence de workflow typique avec scikit-learn et Yellowbrick :
Dans cet exemple, nous voyons comment Rank2D effectue des comparaisons par paires de chaque fonctionnalité de l'ensemble de données avec une métrique ou un algorithme spécifique, puis les renvoie classées sous forme de diagramme triangulaire inférieur gauche.
from yellowbrick . features import Rank2D
visualizer = Rank2D (
features = features , algorithm = 'covariance'
)
visualizer . fit ( X , y ) # Fit the data to the visualizer
visualizer . transform ( X ) # Transform the data
visualizer . show () # Finalize and render the figure
Dans cet exemple, nous instancions un classificateur scikit-learn, puis utilisons la classe ROCAUC de Yellowbrick pour visualiser le compromis entre la sensibilité et la spécificité du classificateur.
from sklearn . svm import LinearSVC
from yellowbrick . classifier import ROCAUC
model = LinearSVC ()
visualizer = ROCAUC ( model )
visualizer . fit ( X , y )
visualizer . score ( X , y )
visualizer . show ()
Pour plus d'informations sur la prise en main de Yellowbrick, consultez le guide de démarrage rapide dans la documentation et consultez notre bloc-notes d'exemples.
Yellowbrick est un projet open source soutenu par une communauté qui acceptera avec gratitude et humilité toute contribution que vous pourriez apporter au projet. Grande ou petite, toute contribution fait une grande différence ; et si vous n'avez jamais contribué à un projet open source auparavant, nous espérons que vous commencerez avec Yellowbrick !
Si vous souhaitez contribuer, consultez notre guide du contributeur. Au-delà de la création de visualiseurs, il existe de nombreuses façons de contribuer :
Comme vous pouvez le constater, il existe de nombreuses façons de s’impliquer et nous serions très heureux que vous nous rejoigniez ! La seule chose que nous vous demandons est de respecter les principes d'ouverture, de respect et de considération d'autrui tels que décrits dans le code de conduite de Python Software Foundation.
Pour plus d'informations, consultez le fichier CONTRIBUTING.md
à la racine du référentiel ou la documentation détaillée sur Contributing to Yellowbrick
Yellowbrick donne un accès facile à plusieurs ensembles de données utilisés pour les exemples dans la documentation et les tests. Ces ensembles de données sont hébergés dans notre CDN et doivent être téléchargés pour être utilisés. Généralement, lorsqu'un utilisateur appelle l'une des fonctions du chargeur de données, par exemple load_bikeshare()
les données sont automatiquement téléchargées si elles ne sont pas déjà sur l'ordinateur de l'utilisateur. Cependant, pour le développement et les tests, ou si vous savez que vous travaillerez sans accès à Internet, il peut être plus simple de simplement télécharger toutes les données en même temps.
Le script de téléchargement de données peut être exécuté comme suit :
$ python -m yellowbrick.download
Cela téléchargera les données dans le répertoire des appareils à l'intérieur des packages du site Yellowbrick. Vous pouvez spécifier l'emplacement du téléchargement soit comme argument du script de téléchargement (utilisez --help
pour plus de détails) soit en définissant la variable d'environnement $YELLOWBRICK_DATA
. Il s'agit du mécanisme préféré car il influencera également la façon dont les données sont chargées dans Yellowbrick.
Remarque : Les développeurs qui ont téléchargé des données à partir de versions de Yellowbrick antérieures à la v1.0 peuvent rencontrer des problèmes avec l'ancien format de données. Si cela se produit, vous pouvez vider votre cache de données comme suit :
$ python -m yellowbrick.download --cleanup
Cela supprimera les anciens ensembles de données et téléchargera les nouveaux. Vous pouvez également utiliser l'indicateur --no-download
pour simplement vider le cache sans retélécharger les données. Les utilisateurs qui rencontrent des difficultés avec les ensembles de données peuvent également l'utiliser ou désinstaller et réinstaller Yellowbrick à l'aide de pip
.
Nous serions heureux si vous utilisiez Yellowbrick dans vos publications scientifiques ! Si vous le faites, veuillez nous citer en utilisant les directives de citation.