Dokumentasi | Perselisihan | Tumpukan Luapan | Log perubahan terbaru
Apakah Anda menyukai proyek ini? Tunjukkan cinta Anda dan berikan masukan!
Tujuan utama ydata-profiling
adalah untuk memberikan pengalaman Analisis Data Eksplorasi (EDA) satu baris dalam solusi yang konsisten dan cepat. Seperti fungsi pandas df.describe()
, yang sangat berguna, ydata-profiling memberikan analisis DataFrame yang diperluas sekaligus memungkinkan analisis data diekspor dalam format berbeda seperti html dan json .
Paket ini menghasilkan analisis kumpulan data yang sederhana dan ringkas, termasuk rangkaian waktu dan teks .
Mencari solusi terukur yang dapat terintegrasi sepenuhnya dengan sistem database Anda?
Manfaatkan Katalog Data Fabric YData untuk terhubung ke database dan penyimpanan yang berbeda (Oracle, kepingan salju, PostGreSQL, GCS, S3, dll.) dan manfaatkan pengalaman pembuatan profil yang interaktif dan terpandu di Fabric. Lihat Versi Komunitas.
pip install ydata-profiling
atau
conda install -c conda-forge ydata-profiling
Mulailah dengan memuat DataFrame
panda Anda seperti biasa, misalnya dengan menggunakan:
import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport
df = pd . DataFrame ( np . random . rand ( 100 , 5 ), columns = [ "a" , "b" , "c" , "d" , "e" ])
Untuk menghasilkan laporan profil standar, jalankan saja:
profile = ProfileReport ( df , title = "Profiling Report" )
Laporan ini berisi tiga bagian tambahan:
Dukungan Spark telah dirilis, tetapi kami selalu mencari bantuan tambahan?. Periksa pekerjaan yang sedang berlangsung!.
Pembuatan profil YData dapat digunakan untuk memberikan berbagai kasus penggunaan yang berbeda. Dokumentasinya meliputi panduan, tips dan trik untuk mengatasinya:
Kasus penggunaan | Keterangan |
---|---|
Membandingkan kumpulan data | Membandingkan beberapa versi dari kumpulan data yang sama |
Membuat profil kumpulan data Rangkaian Waktu | Menghasilkan laporan untuk kumpulan data deret waktu dengan satu baris kode |
Membuat profil kumpulan data besar | Kiat tentang cara menyiapkan data dan mengonfigurasi ydata-profiling untuk bekerja dengan kumpulan data besar |
Menangani data sensitif | Menghasilkan laporan yang memperhatikan data sensitif dalam kumpulan data masukan |
Metadata kumpulan data dan kamus data | Melengkapi laporan dengan detail kumpulan data dan kamus data khusus kolom |
Menyesuaikan tampilan laporan | Mengubah tampilan halaman laporan dan visualisasi yang ada di dalamnya |
Database Profil | Untuk pengalaman pembuatan profil yang lancar di database organisasi Anda, periksa Fabric Data Catalog, yang memungkinkan penggunaan data dari berbagai jenis penyimpanan seperti RDBM (Azure SQL, PostGreSQL, Oracle, dll.) dan penyimpanan objek (Google Cloud Storage, AWS S3, Kepingan salju, dll.), antara lain. |
Ada dua antarmuka untuk menggunakan laporan di dalam notebook Jupyter: melalui widget dan melalui laporan HTML yang disematkan.
Hal di atas dicapai hanya dengan menampilkan laporan sebagai sekumpulan widget. Di Notebook Jupyter, jalankan:
profile . to_widgets ()
Laporan HTML dapat langsung disematkan ke dalam sel dengan cara serupa:
profile . to_notebook_iframe ()
Untuk menghasilkan file laporan HTML, simpan ProfileReport
ke objek dan gunakan fungsi to_file()
:
profile . to_file ( "your_report.html" )
Alternatifnya, data laporan dapat diperoleh sebagai file JSON:
# As a JSON string
json_data = profile . to_json ()
# As a file
profile . to_file ( "your_report.json" )
Untuk file CSV berformat standar (yang dapat dibaca langsung oleh panda tanpa pengaturan tambahan), ydata_profiling
yang dapat dieksekusi dapat digunakan di baris perintah. Contoh di bawah ini menghasilkan laporan bernama Contoh Profil Laporan , menggunakan file konfigurasi bernama default.yaml
, dalam file report.html
dengan memproses kumpulan data data.csv
.
ydata_profiling --title " Example Profiling Report " --config_file default.yaml data.csv report.html
Detail tambahan tentang CLI tersedia di dokumentasi.
Contoh laporan berikut menunjukkan potensi paket di berbagai kumpulan data dan tipe data:
Detail tambahan, termasuk informasi tentang dukungan widget, tersedia di dokumentasi.
Anda dapat menginstal menggunakan manajer paket pip
dengan menjalankan:
pip install -U ydata-profiling
Paket tersebut mendeklarasikan "ekstra", kumpulan dependensi tambahan.
[notebook]
: dukungan untuk merender laporan di widget notebook Jupyter.[unicode]
: dukungan untuk analisis Unicode yang lebih rinci, dengan mengorbankan ruang disk tambahan.[pyspark]
: dukungan untuk pyspark untuk analisis kumpulan data besarInstal ini dengan mis
pip install -U ydata-profiling[notebook,unicode,pyspark]
Anda dapat menginstal menggunakan manajer paket conda
dengan menjalankan:
conda install -c conda-forge ydata-profiling
Unduh kode sumber dengan mengkloning repositori atau klik Unduh ZIP untuk mengunduh versi stabil terbaru.
Instal dengan menavigasi ke direktori yang tepat dan menjalankan:
pip install -e .
Laporan pembuatan profil ditulis dalam HTML dan CSS, yang berarti diperlukan browser modern.
Anda memerlukan Python 3 untuk menjalankan paket. Ketergantungan lain dapat ditemukan di file persyaratan:
Nama file | Persyaratan |
---|---|
persyaratan.txt | Persyaratan paket |
persyaratan-dev.txt | Persyaratan untuk pengembangan |
persyaratan-test.txt | Persyaratan untuk pengujian |
setup.py | Persyaratan untuk widget dll. |
Untuk memaksimalkan kegunaannya dalam konteks dunia nyata, ydata-profiling
memiliki serangkaian integrasi implisit dan eksplisit dengan berbagai aktor lain dalam ekosistem Ilmu Data:
Tipe integrasi | Keterangan |
---|---|
Pustaka DataFrame lainnya | Cara menghitung pembuatan profil data yang disimpan di perpustakaan selain panda |
Besar harapan | Menghasilkan Ekspektasi Besar Ekspektasi dihasilkan langsung dari laporan pembuatan profil |
Aplikasi interaktif | Menyematkan laporan profil di aplikasi Streamlit, Dash, atau Panel |
Saluran pipa | Integrasi dengan alat eksekusi alur kerja DAG seperti Airflow atau Kedro |
Layanan awan | Menggunakan ydata-profiling di layanan komputasi yang dihosting seperti Lambda, Google Cloud, atau Kaggle |
IDE | Menggunakan ydata-profiling langsung dari lingkungan pengembangan terintegrasi seperti PyCharm |
Butuh bantuan? Ingin berbagi perspektif? Laporkan bug? Ide untuk kolaborasi? Jangkau melalui saluran berikut:
Butuh Bantuan?
Dapatkan jawaban atas pertanyaan Anda kepada pemilik produk dengan memesan obrolan Pawsome! ?
❗ Sebelum melaporkan masalah di GitHub, lihat Masalah Umum.
Pelajari cara terlibat dalam Panduan Kontribusi.
Tempat yang paling mudah untuk mengajukan pertanyaan atau mulai berkontribusi adalah Discord dari Komunitas AI Pusat Data.
Terima kasih banyak kepada semua kontributor kami yang luar biasa!
Dinding kontributor dibuat dengan contrib.rocks.