Visuelle Analyse- und Diagnosetools zur Erleichterung der Modellauswahl für maschinelles Lernen.
Yellowbrick ist eine Suite visueller Diagnosetools namens „Visualizers“, die die Scikit-Learn-API erweitern, um eine menschliche Steuerung des Modellauswahlprozesses zu ermöglichen. Kurz gesagt: Yellowbrick kombiniert Scikit-Learn mit Matplotlib in der besten Tradition der Scikit-Learn-Dokumentation, aber um Visualisierungen für Ihren maschinellen Lernworkflow zu erstellen!
Eine vollständige Dokumentation zur Yellowbrick-API, eine Galerie verfügbarer Visualisierer, den Leitfaden für Mitwirkende, Tutorials und Lehrressourcen, häufig gestellte Fragen und mehr finden Sie in unserer Dokumentation unter www.scikit-yb.org.
Yellowbrick ist mit Python 3.4 oder höher kompatibel und hängt auch von scikit-learn und matplotlib ab. Der einfachste Weg, Yellowbrick und seine Abhängigkeiten zu installieren, ist PyPI mit pip, dem bevorzugten Paketinstallationsprogramm von Python.
$ pip install yellowbrick
Beachten Sie, dass Yellowbrick ein aktives Projekt ist und regelmäßig neue Versionen mit mehr Visualisierern und Updates veröffentlicht. Um Yellowbrick auf die neueste Version zu aktualisieren, verwenden Sie pip wie folgt.
$ pip install -U yellowbrick
Sie können das Flag -U
auch verwenden, um scikit-learn, matplotlib oder andere Dienstprogramme von Drittanbietern, die gut mit Yellowbrick funktionieren, auf die neuesten Versionen zu aktualisieren.
Wenn Sie Anaconda verwenden (empfohlen für Windows-Benutzer), können Sie das Dienstprogramm conda nutzen, um Yellowbrick zu installieren:
conda install -c districtdatalabs yellowbrick
Die Yellowbrick-API wurde speziell für die reibungslose Zusammenarbeit mit scikit-learn entwickelt. Hier ist ein Beispiel für einen typischen Workflow-Ablauf mit scikit-learn und Yellowbrick:
In diesem Beispiel sehen wir, wie Rank2D paarweise Vergleiche jedes Merkmals im Datensatz mit einer bestimmten Metrik oder einem bestimmten Algorithmus durchführt und diese dann in der Rangfolge als Dreiecksdiagramm unten links zurückgibt.
from yellowbrick . features import Rank2D
visualizer = Rank2D (
features = features , algorithm = 'covariance'
)
visualizer . fit ( X , y ) # Fit the data to the visualizer
visualizer . transform ( X ) # Transform the data
visualizer . show () # Finalize and render the figure
In diesem Beispiel instanziieren wir einen Scikit-Learn-Klassifikator und verwenden dann die ROCAUC-Klasse von Yellowbrick, um den Kompromiss zwischen der Empfindlichkeit und Spezifität des Klassifikators zu visualisieren.
from sklearn . svm import LinearSVC
from yellowbrick . classifier import ROCAUC
model = LinearSVC ()
visualizer = ROCAUC ( model )
visualizer . fit ( X , y )
visualizer . score ( X , y )
visualizer . show ()
Weitere Informationen zum Einstieg in Yellowbrick finden Sie in der Kurzanleitung in der Dokumentation und in unserem Beispielnotizbuch.
Yellowbrick ist ein Open-Source-Projekt, das von einer Community unterstützt wird, die jeden Beitrag, den Sie zum Projekt leisten, dankbar und demütig annimmt. Ob groß oder klein, jeder Beitrag macht einen großen Unterschied; Und wenn Sie noch nie zuvor an einem Open-Source-Projekt mitgewirkt haben, hoffen wir, dass Sie mit Yellowbrick beginnen!
Wenn Sie daran interessiert sind, einen Beitrag zu leisten, schauen Sie sich unseren Leitfaden für Mitwirkende an. Über die Erstellung von Visualisierern hinaus gibt es viele Möglichkeiten, einen Beitrag zu leisten:
Wie Sie sehen, gibt es viele Möglichkeiten, sich zu engagieren und wir würden uns sehr über Ihr Engagement freuen! Das Einzige, worum wir Sie bitten, ist, dass Sie sich an die Grundsätze der Offenheit, des Respekts und der Rücksichtnahme gegenüber anderen halten, wie im Verhaltenskodex der Python Software Foundation beschrieben.
Weitere Informationen finden Sie in der Datei CONTRIBUTING.md
im Stammverzeichnis des Repositorys oder in der ausführlichen Dokumentation unter Contributing to Yellowbrick
Yellowbrick bietet einfachen Zugriff auf mehrere Datensätze, die für die Beispiele in der Dokumentation und beim Testen verwendet werden. Diese Datensätze werden in unserem CDN gehostet und müssen zur Verwendung heruntergeladen werden. Wenn ein Benutzer eine der Datenladefunktionen aufruft, z. B. load_bikeshare()
werden die Daten normalerweise automatisch heruntergeladen, sofern sie sich nicht bereits auf dem Computer des Benutzers befinden. Für Entwicklungs- und Testzwecke oder wenn Sie wissen, dass Sie ohne Internetzugang arbeiten werden, kann es jedoch einfacher sein, einfach alle Daten auf einmal herunterzuladen.
Das Daten-Downloader-Skript kann wie folgt ausgeführt werden:
$ python -m yellowbrick.download
Dadurch werden die Daten in das Fixtures-Verzeichnis innerhalb der Yellowbrick-Site-Pakete heruntergeladen. Sie können den Speicherort des Downloads entweder als Argument für das Downloader-Skript angeben (verwenden Sie --help
für weitere Details) oder indem Sie die Umgebungsvariable $YELLOWBRICK_DATA
festlegen. Dies ist der bevorzugte Mechanismus, da dieser auch Einfluss darauf hat, wie Daten in Yellowbrick geladen werden.
Hinweis: Entwickler, die Daten von Yellowbrick-Versionen vor Version 1.0 heruntergeladen haben, können Probleme mit dem älteren Datenformat haben. In diesem Fall können Sie Ihren Datencache wie folgt leeren:
$ python -m yellowbrick.download --cleanup
Dadurch werden alte Datensätze entfernt und die neuen heruntergeladen. Sie können auch das Flag --no-download
verwenden, um einfach den Cache zu leeren, ohne die Daten erneut herunterzuladen. Benutzer, die Schwierigkeiten mit Datensätzen haben, können dies auch verwenden oder Yellowbrick mit pip
deinstallieren und neu installieren.
Wir würden uns freuen, wenn Sie Yellowbrick in Ihren wissenschaftlichen Publikationen verwenden würden! Wenn Sie dies tun, zitieren Sie uns bitte anhand der Zitierrichtlinien.