機械学習モデルの選択を容易にする視覚的な分析および診断ツール。
Yellowbrick は、scikit-learn API を拡張してモデル選択プロセスを人間が操作できるようにする「Visualizers」と呼ばれる視覚的診断ツールのスイートです。一言で言えば、Yellowbrick は scikit-learn ドキュメントの最良の伝統に従って、scikit-learn と matplotlib を組み合わせていますが、機械学習ワークフローの視覚化を生成するためのものです。
Yellowbrick API に関する完全なドキュメント、利用可能なビジュアライザーのギャラリー、寄稿者ガイド、チュートリアルと教育リソース、よくある質問などについては、www.scikit-yb.org のドキュメントを参照してください。
Yellowbrick は Python 3.4 以降と互換性があり、scikit-learn および matplotlib にも依存します。 Yellowbrick とその依存関係をインストールする最も簡単な方法は、Python の推奨パッケージ インストーラーである pip を使用して PyPI から行うことです。
$ pip install yellowbrick
Yellowbrick はアクティブなプロジェクトであり、より多くのビジュアライザーとアップデートを含む新しいリリースを定期的に公開していることに注意してください。 Yellowbrick を最新バージョンにアップグレードするには、次のように pip を使用します。
$ pip install -U yellowbrick
-U
フラグを使用して、scikit-learn、matplotlib、または Yellowbrick と適切に連携するその他のサードパーティ ユーティリティを最新バージョンに更新することもできます。
Anaconda (Windows ユーザーに推奨) を使用している場合は、conda ユーティリティを利用して Yellowbrick をインストールできます。
conda install -c districtdatalabs yellowbrick
Yellowbrick API は、scikit-learn とうまく連携できるように特別に設計されています。以下は、scikit-learn と Yellowbrick を使用した一般的なワークフロー シーケンスの例です。
この例では、Rank2D が特定のメトリックまたはアルゴリズムを使用してデータ セット内の各特徴のペアごとの比較を実行し、それらを左下の三角図としてランク付けして返す方法を示します。
from yellowbrick . features import Rank2D
visualizer = Rank2D (
features = features , algorithm = 'covariance'
)
visualizer . fit ( X , y ) # Fit the data to the visualizer
visualizer . transform ( X ) # Transform the data
visualizer . show () # Finalize and render the figure
この例では、scikit-learn 分類器をインスタンス化し、Yellowbrick の ROCAUC クラスを使用して分類器の感度と特異性の間のトレードオフを視覚化します。
from sklearn . svm import LinearSVC
from yellowbrick . classifier import ROCAUC
model = LinearSVC ()
visualizer = ROCAUC ( model )
visualizer . fit ( X , y )
visualizer . score ( X , y )
visualizer . show ()
Yellowbrick の使用を開始するための追加情報については、ドキュメントのクイック スタート ガイドを参照し、サンプル ノートブックを確認してください。
Yellowbrick は、プロジェクトへの貢献をありがたく謙虚に受け入れてくれるコミュニティによってサポートされているオープンソース プロジェクトです。大なり小なり、貢献は大きな違いを生みます。これまでオープンソース プロジェクトに貢献したことがない場合は、ぜひ Yellowbrick から始めてください。
貢献に興味がある場合は、貢献者ガイドをご覧ください。ビジュアライザーの作成以外にも、貢献する方法は数多くあります。
ご覧のとおり、参加する方法はたくさんあります。ぜひご参加ください。私たちが求める唯一のことは、Python Software Foundation の行動規範に記載されているオープンさ、敬意、他者への配慮の原則を遵守していただくことです。
詳細については、リポジトリのルートにあるCONTRIBUTING.md
ファイルを確認するか、Yellowbrick への貢献にある詳細ドキュメントを確認してください。
Yellowbrick を使用すると、ドキュメントやテストの例に使用されるいくつかのデータセットに簡単にアクセスできます。これらのデータセットは CDN でホストされており、使用するにはダウンロードする必要があります。通常、ユーザーがデータ ローダー関数の 1 つ (たとえば、 load_bikeshare()
など) を呼び出すと、データがユーザーのコンピューター上にない場合は、データが自動的にダウンロードされます。ただし、開発やテストの場合、またはインターネット アクセスなしで作業することがわかっている場合は、すべてのデータを一度にダウンロードする方が簡単な場合があります。
データ ダウンローダー スクリプトは次のように実行できます。
$ python -m yellowbrick.download
これにより、Yellowbrick サイト パッケージ内のフィクスチャ ディレクトリにデータがダウンロードされます。ダウンロードの場所は、ダウンローダー スクリプトの引数として指定するか (詳細については--help
を使用)、または$YELLOWBRICK_DATA
環境変数を設定することで指定できます。これは、Yellowbrick でのデータのロード方法にも影響するため、これが推奨されるメカニズムです。
注: v1.0 より前の Yellowbrick バージョンからデータをダウンロードした開発者は、古いデータ形式で問題が発生する可能性があります。この問題が発生した場合は、次のようにしてデータ キャッシュをクリアできます。
$ python -m yellowbrick.download --cleanup
これにより、古いデータセットが削除され、新しいデータセットがダウンロードされます。 --no-download
フラグを使用して、データを再ダウンロードせずに単純にキャッシュをクリアすることもできます。データセットに問題があるユーザーはこれを使用することも、 pip
使用して Yellowbrick をアンインストールして再インストールすることもできます。
科学出版物で Yellowbrick を使用していただければ幸いです。その場合は、引用ガイドラインに従って引用してください。