視覺化分析和診斷工具有助於機器學習模型的選擇。
Yellowbrick 是一套稱為「Visualizers」的視覺診斷工具,它擴展了 scikit-learn API,以允許人工指導模型選擇流程。簡而言之,Yellowbrick 將 scikit-learn 與 matplotlib 結合在一起,繼承了 scikit-learn 文件的最佳傳統,但為您的機器學習工作流程生成可視化!
有關 Yellowbrick API 的完整文件、可用視覺化工具庫、貢獻者指南、教學和教學資源、常見問題等,請造訪我們的文件:www.scikit-yb.org。
Yellowbrick 與 Python 3.4 或更高版本相容,也依賴 scikit-learn 和 matplotlib。安裝 Yellowbrick 及其相依性最簡單的方法是使用 PyPI 和 pip(Python 的首選套件安裝程式)。
$ pip install yellowbrick
請注意,Yellowbrick 是一個活躍的項目,會定期發布包含更多視覺化工具和更新的新版本。要將 Yellowbrick 升級到最新版本,請使用 pip,如下所示。
$ pip install -U yellowbrick
您也可以使用-U
標誌將 scikit-learn、matplotlib 或與 Yellowbrick 配合良好的任何其他第三方實用程式更新至最新版本。
如果您使用 Anaconda(推薦 Windows 使用者),您可以利用 conda 公用程式來安裝 Yellowbrick:
conda install -c districtdatalabs yellowbrick
Yellowbrick API 專門設計用於與 scikit-learn 完美配合。以下是 scikit-learn 和 Yellowbrick 的典型工作流程範例:
在此範例中,我們了解 Rank2D 如何使用特定指標或演算法對資料集中的每個特徵進行成對比較,然後以左下三角圖的形式傳回它們的排名。
from yellowbrick . features import Rank2D
visualizer = Rank2D (
features = features , algorithm = 'covariance'
)
visualizer . fit ( X , y ) # Fit the data to the visualizer
visualizer . transform ( X ) # Transform the data
visualizer . show () # Finalize and render the figure
在此範例中,我們實例化一個 scikit-learn 分類器,然後使用 Yellowbrick 的 ROCAUC 類別來視覺化分類器的敏感性和特異性之間的權衡。
from sklearn . svm import LinearSVC
from yellowbrick . classifier import ROCAUC
model = LinearSVC ()
visualizer = ROCAUC ( model )
visualizer . fit ( X , y )
visualizer . score ( X , y )
visualizer . show ()
有關 Yellowbrick 入門的更多信息,請查看文檔中的快速入門指南並查看我們的範例筆記本。
Yellowbrick 是一個開源項目,由社群支持,社群將感激並謙虛地接受您可能對該專案做出的任何貢獻。無論大小,任何貢獻都會產生很大的影響;如果您以前從未為開源專案做出貢獻,我們希望您從 Yellowbrick 開始!
如果您有興趣貢獻,請查看我們的貢獻者指南。除了創建視覺化工具之外,還有很多貢獻方式:
正如您所看到的,參與的方式有很多,我們非常高興您加入我們!我們唯一要求的是您遵守 Python 軟體基金會行為準則中所描述的開放、尊重和考慮他人的原則。
有關更多信息,請查看存儲庫根目錄中的CONTRIBUTING.md
文件或 Contributing to Yellowbrick 中的詳細文檔
Yellowbrick 可以輕鬆存取用於文件和測試中的範例的多個資料集。這些資料集託管在我們的 CDN 中,必須下載才能使用。通常,當使用者呼叫資料載入器函數之一(例如load_bikeshare()
時,如果使用者電腦上尚未有數據,則會自動下載資料。但是,對於開發和測試,或者如果您知道自己將在沒有網路存取的情況下工作,那麼一次下載所有資料可能會更容易。
數據下載器腳本可以如下運行:
$ python -m yellowbrick.download
這會將資料下載到 Yellowbrick 網站包內的裝置目錄中。您可以指定下載位置作為下載程式腳本的參數(使用--help
了解更多詳細資訊)或透過設定$YELLOWBRICK_DATA
環境變數。這是首選機制,因為這也會影響 Yellowbrick 中資料的載入方式。
注意:從 Yellowbrick v1.0 之前版本下載資料的開發人員可能會遇到舊資料格式的一些問題。如果發生這種情況,您可以如下清除資料快取:
$ python -m yellowbrick.download --cleanup
這將刪除舊資料集並下載新資料集。您也可以使用--no-download
標誌來簡單地清除緩存,而無需重新下載資料。對資料集有困難的使用者也可以使用此功能,或者可以使用pip
卸載並重新安裝 Yellowbrick。
如果您在科學出版物中使用 Yellowbrick,我們將非常高興!如果您這樣做,請使用引用指南引用我們。