Analisis visual dan alat diagnostik untuk memfasilitasi pemilihan model pembelajaran mesin.
Yellowbrick adalah seperangkat alat diagnostik visual yang disebut "Visualizers" yang memperluas API scikit-learn untuk memungkinkan kendali manusia dalam proses pemilihan model. Singkatnya, Yellowbrick menggabungkan scikit-learn dengan matplotlib dalam tradisi terbaik dokumentasi scikit-learn, tetapi untuk menghasilkan visualisasi untuk alur kerja pembelajaran mesin Anda !
Untuk dokumentasi lengkap tentang Yellowbrick API, galeri visualisator yang tersedia, panduan kontributor, tutorial dan sumber pengajaran, pertanyaan umum, dan banyak lagi, silakan kunjungi dokumentasi kami di www.scikit-yb.org.
Yellowbrick kompatibel dengan Python 3.4 atau lebih baru dan juga bergantung pada scikit-learn dan matplotlib. Cara termudah untuk menginstal Yellowbrick dan dependensinya adalah dari PyPI dengan pip, penginstal paket pilihan Python.
$ pip install yellowbrick
Perhatikan bahwa Yellowbrick adalah proyek aktif dan secara rutin menerbitkan rilis baru dengan lebih banyak visualisator dan pembaruan. Untuk mengupgrade Yellowbrick ke versi terbaru, gunakan pip sebagai berikut.
$ pip install -U yellowbrick
Anda juga dapat menggunakan tanda -U
untuk memperbarui scikit-learn, matplotlib, atau utilitas pihak ketiga lainnya yang berfungsi baik dengan Yellowbrick ke versi terbarunya.
Jika Anda menggunakan Anaconda (direkomendasikan untuk pengguna Windows), Anda dapat memanfaatkan utilitas conda untuk menginstal Yellowbrick:
conda install -c districtdatalabs yellowbrick
Yellowbrick API dirancang khusus agar berfungsi baik dengan scikit-learn. Berikut adalah contoh urutan alur kerja umum dengan scikit-learn dan Yellowbrick:
Dalam contoh ini, kita melihat bagaimana Rank2D melakukan perbandingan berpasangan dari setiap fitur dalam kumpulan data dengan metrik atau algoritma tertentu dan kemudian mengembalikannya dengan peringkat sebagai diagram segitiga kiri bawah.
from yellowbrick . features import Rank2D
visualizer = Rank2D (
features = features , algorithm = 'covariance'
)
visualizer . fit ( X , y ) # Fit the data to the visualizer
visualizer . transform ( X ) # Transform the data
visualizer . show () # Finalize and render the figure
Dalam contoh ini, kami membuat instance pengklasifikasi scikit-learn dan kemudian menggunakan kelas ROCAUC Yellowbrick untuk memvisualisasikan trade-off antara sensitivitas dan spesifisitas pengklasifikasi.
from sklearn . svm import LinearSVC
from yellowbrick . classifier import ROCAUC
model = LinearSVC ()
visualizer = ROCAUC ( model )
visualizer . fit ( X , y )
visualizer . score ( X , y )
visualizer . show ()
Untuk informasi tambahan tentang memulai dengan Yellowbrick, lihat Panduan Memulai Cepat di dokumentasi dan lihat contoh buku catatan kami.
Yellowbrick adalah proyek sumber terbuka yang didukung oleh komunitas yang akan dengan senang hati dan rendah hati menerima kontribusi apa pun yang Anda berikan untuk proyek tersebut. Besar atau kecil, kontribusi apa pun akan membawa perbedaan besar; dan jika Anda belum pernah berkontribusi pada proyek sumber terbuka sebelumnya, kami harap Anda mulai dengan Yellowbrick!
Jika Anda tertarik untuk berkontribusi, lihat panduan kontributor kami. Selain membuat visualisator, ada banyak cara untuk berkontribusi:
Seperti yang Anda lihat, ada banyak cara untuk terlibat dan kami akan sangat senang jika Anda bergabung dengan kami! Satu-satunya hal yang kami minta adalah Anda mematuhi prinsip keterbukaan, rasa hormat, dan pertimbangan terhadap orang lain sebagaimana dijelaskan dalam Kode Etik Python Software Foundation.
Untuk informasi lebih lanjut, periksa file CONTRIBUTING.md
di root repositori atau dokumentasi terperinci di Berkontribusi ke Yellowbrick
Yellowbrick memberikan akses mudah ke beberapa dataset yang digunakan sebagai contoh dalam dokumentasi dan pengujian. Kumpulan data ini dihosting di CDN kami dan harus diunduh untuk digunakan. Biasanya, ketika pengguna memanggil salah satu fungsi pemuat data, misalnya load_bikeshare()
data akan diunduh secara otomatis jika belum ada di komputer pengguna. Namun, untuk pengembangan dan pengujian, atau jika Anda akan bekerja tanpa akses internet, mungkin lebih mudah untuk mengunduh semua data sekaligus.
Skrip pengunduh data dapat dijalankan sebagai berikut:
$ python -m yellowbrick.download
Ini akan mengunduh data ke direktori perlengkapan di dalam paket situs Yellowbrick. Anda dapat menentukan lokasi pengunduhan sebagai argumen pada skrip pengunduh (gunakan --help
untuk detail lebih lanjut) atau dengan menyetel variabel lingkungan $YELLOWBRICK_DATA
. Ini adalah mekanisme yang disukai karena ini juga akan mempengaruhi cara data dimuat di Yellowbrick.
Catatan: Pengembang yang telah mengunduh data dari Yellowbrick versi lebih awal dari v1.0 mungkin mengalami beberapa masalah dengan format data lama. Jika ini terjadi, Anda dapat menghapus cache data dengan cara berikut:
$ python -m yellowbrick.download --cleanup
Ini akan menghapus kumpulan data lama dan mengunduh kumpulan data baru. Anda juga dapat menggunakan tanda --no-download
untuk menghapus cache tanpa perlu mengunduh ulang data. Pengguna yang mengalami kesulitan dengan dataset juga dapat menggunakan ini atau mereka dapat menghapus dan menginstal ulang Yellowbrick menggunakan pip
.
Kami akan senang jika Anda menggunakan Yellowbrick dalam publikasi ilmiah Anda! Jika ya, harap kutip kami menggunakan pedoman kutipan.