Análise visual e ferramentas de diagnóstico para facilitar a seleção de modelos de aprendizado de máquina.
Yellowbrick é um conjunto de ferramentas de diagnóstico visual chamadas "Visualizadores" que estendem a API scikit-learn para permitir a direção humana do processo de seleção de modelos. Resumindo, o Yellowbrick combina o scikit-learn com o matplotlib na melhor tradição da documentação do scikit-learn, mas para produzir visualizações para o seu fluxo de trabalho de aprendizado de máquina!
Para documentação completa sobre a API Yellowbrick, uma galeria de visualizadores disponíveis, o guia do contribuidor, tutoriais e recursos de ensino, perguntas frequentes e muito mais, visite nossa documentação em www.scikit-yb.org.
Yellowbrick é compatível com Python 3.4 ou posterior e também depende de scikit-learn e matplotlib. A maneira mais simples de instalar o Yellowbrick e suas dependências é a partir do PyPI com pip, o instalador de pacotes preferido do Python.
$ pip install yellowbrick
Observe que Yellowbrick é um projeto ativo e publica rotineiramente novos lançamentos com mais visualizadores e atualizações. Para atualizar o Yellowbrick para a versão mais recente, use pip da seguinte maneira.
$ pip install -U yellowbrick
Você também pode usar o sinalizador -U
para atualizar o scikit-learn, matplotlib ou qualquer outro utilitário de terceiros que funcione bem com o Yellowbrick para suas versões mais recentes.
Se estiver usando o Anaconda (recomendado para usuários do Windows), você pode aproveitar as vantagens do utilitário conda para instalar o Yellowbrick:
conda install -c districtdatalabs yellowbrick
A API Yellowbrick foi projetada especificamente para funcionar bem com o scikit-learn. Aqui está um exemplo de uma sequência de fluxo de trabalho típica com scikit-learn e Yellowbrick:
Neste exemplo, vemos como o Rank2D realiza comparações pareadas de cada recurso no conjunto de dados com uma métrica ou algoritmo específico e, em seguida, os retorna classificados como um diagrama triangular inferior esquerdo.
from yellowbrick . features import Rank2D
visualizer = Rank2D (
features = features , algorithm = 'covariance'
)
visualizer . fit ( X , y ) # Fit the data to the visualizer
visualizer . transform ( X ) # Transform the data
visualizer . show () # Finalize and render the figure
Neste exemplo, instanciamos um classificador scikit-learn e, em seguida, usamos a classe ROCAUC do Yellowbrick para visualizar a compensação entre a sensibilidade e a especificidade do classificador.
from sklearn . svm import LinearSVC
from yellowbrick . classifier import ROCAUC
model = LinearSVC ()
visualizer = ROCAUC ( model )
visualizer . fit ( X , y )
visualizer . score ( X , y )
visualizer . show ()
Para obter informações adicionais sobre como começar a usar o Yellowbrick, consulte o Guia de início rápido na documentação e confira nosso caderno de exemplos.
Yellowbrick é um projeto de código aberto apoiado por uma comunidade que aceitará com gratidão e humildade qualquer contribuição que você possa fazer ao projeto. Grande ou pequena, qualquer contribuição faz uma grande diferença; e se você nunca contribuiu para um projeto de código aberto antes, esperamos que comece com o Yellowbrick!
Se você estiver interessado em contribuir, confira nosso guia do contribuidor. Além de criar visualizadores, há muitas maneiras de contribuir:
Como você pode ver, há muitas maneiras de se envolver e ficaríamos muito felizes se você se juntasse a nós! A única coisa que pedimos é que você cumpra os princípios de abertura, respeito e consideração pelos outros, conforme descrito no Código de Conduta da Python Software Foundation.
Para obter mais informações, verifique o arquivo CONTRIBUTING.md
na raiz do repositório ou a documentação detalhada em Contributing to Yellowbrick
Yellowbrick oferece acesso fácil a vários conjuntos de dados que são usados para exemplos na documentação e testes. Esses conjuntos de dados estão hospedados em nosso CDN e devem ser baixados para uso. Normalmente, quando um usuário chama uma das funções do carregador de dados, por exemplo, load_bikeshare()
os dados são baixados automaticamente se ainda não estiverem no computador do usuário. No entanto, para desenvolvimento e teste, ou se você sabe que trabalhará sem acesso à Internet, pode ser mais fácil simplesmente baixar todos os dados de uma vez.
O script do downloader de dados pode ser executado da seguinte maneira:
$ python -m yellowbrick.download
Isso fará o download dos dados para o diretório de fixtures dentro dos pacotes do site Yellowbrick. Você pode especificar o local do download como um argumento para o script do downloader (use --help
para obter mais detalhes) ou definindo a variável de ambiente $YELLOWBRICK_DATA
. Este é o mecanismo preferido porque também influenciará a forma como os dados são carregados no Yellowbrick.
Nota: Os desenvolvedores que baixaram dados de versões do Yellowbrick anteriores à v1.0 podem ter alguns problemas com o formato de dados mais antigo. Se isso ocorrer, você poderá limpar o cache de dados da seguinte maneira:
$ python -m yellowbrick.download --cleanup
Isso removerá conjuntos de dados antigos e fará download dos novos. Você também pode usar o sinalizador --no-download
para simplesmente limpar o cache sem baixar novamente os dados. Os usuários que estão tendo dificuldades com conjuntos de dados também podem usar isso ou podem desinstalar e reinstalar o Yellowbrick usando pip
.
Ficaríamos felizes se você usasse o Yellowbrick em suas publicações científicas! Se você fizer isso, cite-nos usando as diretrizes de citação.