Herramientas de diagnóstico y análisis visual para facilitar la selección de modelos de aprendizaje automático.
Yellowbrick es un conjunto de herramientas de diagnóstico visual llamado "Visualizadores" que amplían la API scikit-learn para permitir la dirección humana del proceso de selección de modelos. En pocas palabras, Yellowbrick combina scikit-learn con matplotlib en la mejor tradición de la documentación de scikit-learn, ¡pero para producir visualizaciones para su flujo de trabajo de aprendizaje automático!
Para obtener documentación completa sobre la API de Yellowbrick, una galería de visualizadores disponibles, la guía del colaborador, tutoriales y recursos didácticos, preguntas frecuentes y más, visite nuestra documentación en www.scikit-yb.org.
Yellowbrick es compatible con Python 3.4 o posterior y también depende de scikit-learn y matplotlib. La forma más sencilla de instalar Yellowbrick y sus dependencias es desde PyPI con pip, el instalador de paquetes preferido de Python.
$ pip install yellowbrick
Tenga en cuenta que Yellowbrick es un proyecto activo y publica periódicamente nuevos lanzamientos con más visualizadores y actualizaciones. Para actualizar Yellowbrick a la última versión, use pip de la siguiente manera.
$ pip install -U yellowbrick
También puede usar el indicador -U
para actualizar scikit-learn, matplotlib o cualquier otra utilidad de terceros que funcione bien con Yellowbrick a sus últimas versiones.
Si está utilizando Anaconda (recomendado para usuarios de Windows), puede aprovechar la utilidad conda para instalar Yellowbrick:
conda install -c districtdatalabs yellowbrick
La API de Yellowbrick está diseñada específicamente para funcionar bien con scikit-learn. A continuación se muestra un ejemplo de una secuencia de flujo de trabajo típica con scikit-learn y Yellowbrick:
En este ejemplo, vemos cómo Rank2D realiza comparaciones por pares de cada característica en el conjunto de datos con una métrica o algoritmo específico y luego las devuelve clasificadas como un diagrama de triángulo inferior izquierdo.
from yellowbrick . features import Rank2D
visualizer = Rank2D (
features = features , algorithm = 'covariance'
)
visualizer . fit ( X , y ) # Fit the data to the visualizer
visualizer . transform ( X ) # Transform the data
visualizer . show () # Finalize and render the figure
En este ejemplo, creamos una instancia de un clasificador scikit-learn y luego usamos la clase ROCAUC de Yellowbrick para visualizar el equilibrio entre la sensibilidad y la especificidad del clasificador.
from sklearn . svm import LinearSVC
from yellowbrick . classifier import ROCAUC
model = LinearSVC ()
visualizer = ROCAUC ( model )
visualizer . fit ( X , y )
visualizer . score ( X , y )
visualizer . show ()
Para obtener información adicional sobre cómo comenzar con Yellowbrick, consulte la Guía de inicio rápido en la documentación y consulte nuestro cuaderno de ejemplos.
Yellowbrick es un proyecto de código abierto que cuenta con el respaldo de una comunidad que aceptará con gratitud y humildad cualquier contribución que pueda hacer al proyecto. Grande o pequeña, cualquier contribución hace una gran diferencia; Y si nunca antes has contribuido a un proyecto de código abierto, ¡esperamos que comiences con Yellowbrick!
Si está interesado en contribuir, consulte nuestra guía para contribuyentes. Más allá de crear visualizadores, hay muchas maneras de contribuir:
Como puede ver, hay muchas maneras de participar y ¡estaremos encantados de que se una a nosotros! Lo único que le pedimos es que respete los principios de apertura, respeto y consideración hacia los demás como se describe en el Código de conducta de Python Software Foundation.
Para obtener más información, consulte el archivo CONTRIBUTING.md
en la raíz del repositorio o la documentación detallada en Contribuir a Yellowbrick.
Yellowbrick brinda fácil acceso a varios conjuntos de datos que se utilizan para los ejemplos en la documentación y las pruebas. Estos conjuntos de datos están alojados en nuestra CDN y deben descargarse para su uso. Normalmente, cuando un usuario llama a una de las funciones del cargador de datos, por ejemplo, load_bikeshare()
los datos se descargan automáticamente si aún no están en la computadora del usuario. Sin embargo, para el desarrollo y las pruebas, o si sabe que trabajará sin acceso a Internet, puede ser más fácil descargar todos los datos a la vez.
El script de descarga de datos se puede ejecutar de la siguiente manera:
$ python -m yellowbrick.download
Esto descargará los datos al directorio de accesorios dentro de los paquetes del sitio de Yellowbrick. Puede especificar la ubicación de la descarga como argumento para el script de descarga (use --help
para obtener más detalles) o configurando la variable de entorno $YELLOWBRICK_DATA
. Este es el mecanismo preferido porque también influirá en cómo se cargan los datos en Yellowbrick.
Nota: Los desarrolladores que hayan descargado datos de versiones de Yellowbrick anteriores a la v1.0 pueden experimentar algunos problemas con el formato de datos anterior. Si esto ocurre, puede borrar su caché de datos de la siguiente manera:
$ python -m yellowbrick.download --cleanup
Esto eliminará los conjuntos de datos antiguos y descargará los nuevos. También puede utilizar el indicador --no-download
para simplemente borrar el caché sin volver a descargar los datos. Los usuarios que tengan dificultades con los conjuntos de datos también pueden usar esto o pueden desinstalar y reinstalar Yellowbrick usando pip
.
¡Nos encantaría que utilizara Yellowbrick en sus publicaciones científicas! Si es así, cítenos utilizando las pautas de citación.