เอกสารประกอบ | ไม่ลงรอยกัน | สแต็กโอเวอร์โฟลว์ | บันทึกการเปลี่ยนแปลงล่าสุด
คุณชอบโครงการนี้หรือไม่? แสดงความรักของคุณและแสดงความคิดเห็น!
เป้าหมายหลัก ydata-profiling
คือการมอบประสบการณ์การวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) หนึ่งบรรทัดในโซลูชันที่สม่ำเสมอและรวดเร็ว เช่นเดียวกับฟังก์ชัน pandas df.describe()
ที่มีประโยชน์มาก การทำโปรไฟล์ ydata ให้การวิเคราะห์เพิ่มเติมของ DataFrame ในขณะเดียวกันก็อนุญาตให้ส่งออกการวิเคราะห์ข้อมูลในรูปแบบที่แตกต่างกัน เช่น html และ json
แพ็คเกจจะแสดงการวิเคราะห์ชุดข้อมูลอย่างง่ายและย่อย รวมถึง อนุกรมเวลา และ ข้อความ
กำลังมองหาโซลูชันที่สามารถปรับขนาดได้ซึ่งสามารถรวมเข้ากับระบบฐานข้อมูลของคุณได้อย่างสมบูรณ์หรือไม่?
ใช้ประโยชน์จาก YData Fabric Data Catalog เพื่อเชื่อมต่อกับฐานข้อมูลและพื้นที่จัดเก็บข้อมูลต่างๆ (Oracle, snowflake, PostGreSQL, GCS, S3 ฯลฯ) และใช้ประโยชน์จากประสบการณ์การทำโปรไฟล์แบบโต้ตอบและมีคำแนะนำใน Fabric ตรวจสอบเวอร์ชันชุมชน
pip install ydata-profiling
หรือ
conda install -c conda-forge ydata-profiling
เริ่มต้นด้วยการโหลด DataFrame
ของแพนด้าตามปกติ เช่น โดยใช้:
import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport
df = pd . DataFrame ( np . random . rand ( 100 , 5 ), columns = [ "a" , "b" , "c" , "d" , "e" ])
หากต้องการสร้างรายงานโปรไฟล์มาตรฐาน เพียงรัน:
profile = ProfileReport ( df , title = "Profiling Report" )
รายงานประกอบด้วยสามส่วนเพิ่มเติม:
รองรับ Spark แล้ว แต่เรามักจะมองหามือคู่พิเศษอยู่เสมอ ตรวจสอบงานที่กำลังดำเนินการอยู่!.
การทำโปรไฟล์ YData สามารถใช้เพื่อมอบกรณีการใช้งานที่แตกต่างกันได้หลากหลาย เอกสารประกอบด้วยคำแนะนำ เคล็ดลับ และคำแนะนำในการแก้ไขปัญหาเหล่านี้:
กรณีการใช้งาน | คำอธิบาย |
---|---|
การเปรียบเทียบชุดข้อมูล | การเปรียบเทียบชุดข้อมูลเดียวกันหลายเวอร์ชัน |
การทำโปรไฟล์ชุดข้อมูลอนุกรมเวลา | การสร้างรายงานสำหรับชุดข้อมูลอนุกรมเวลาด้วยโค้ดบรรทัดเดียว |
การทำโปรไฟล์ชุดข้อมูลขนาดใหญ่ | เคล็ดลับเกี่ยวกับวิธีการจัดเตรียมข้อมูลและกำหนดค่าการทำ ydata-profiling สำหรับการทำงานกับชุดข้อมูลขนาดใหญ่ |
การจัดการข้อมูลที่ละเอียดอ่อน | การสร้างรายงานที่คำนึงถึงข้อมูลที่ละเอียดอ่อนในชุดข้อมูลอินพุต |
ข้อมูลเมตาของชุดข้อมูลและพจนานุกรมข้อมูล | การเสริมรายงานด้วยรายละเอียดชุดข้อมูลและพจนานุกรมข้อมูลเฉพาะคอลัมน์ |
การปรับแต่งรูปลักษณ์ของรายงาน | การเปลี่ยนลักษณะที่ปรากฏของหน้ารายงานและการแสดงภาพที่มีอยู่ |
ฐานข้อมูลการทำโปรไฟล์ | หากต้องการประสบการณ์การทำโปรไฟล์ที่ราบรื่นในฐานข้อมูลขององค์กรของคุณ โปรดตรวจสอบ Fabric Data Catalog ซึ่งอนุญาตให้ใช้ข้อมูลจากพื้นที่จัดเก็บข้อมูลประเภทต่างๆ เช่น RDBM (Azure SQL, PostGreSQL, Oracle ฯลฯ) และพื้นที่จัดเก็บอ็อบเจ็กต์ (Google Cloud Storage, AWS S3, เกล็ดหิมะ ฯลฯ ) และอื่นๆ อีกมากมาย |
มีสองอินเทอร์เฟซสำหรับการใช้รายงานภายในสมุดบันทึก Jupyter: ผ่านวิดเจ็ตและผ่านรายงาน HTML ที่ฝังไว้
การดำเนินการข้างต้นสามารถทำได้โดยการแสดงรายงานเป็นชุดวิดเจ็ต ใน Jupyter Notebook ให้รัน:
profile . to_widgets ()
รายงาน HTML สามารถฝังลงในเซลล์ได้โดยตรงในลักษณะเดียวกัน:
profile . to_notebook_iframe ()
หากต้องการสร้างไฟล์รายงาน HTML ให้บันทึก ProfileReport
ลงในออบเจ็กต์และใช้ฟังก์ชัน to_file()
:
profile . to_file ( "your_report.html" )
หรือรับข้อมูลของรายงานเป็นไฟล์ JSON ก็ได้:
# As a JSON string
json_data = profile . to_json ()
# As a file
profile . to_file ( "your_report.json" )
สำหรับไฟล์ CSV ที่จัดรูปแบบมาตรฐาน (ซึ่งแพนด้าสามารถอ่านได้โดยตรงโดยไม่ต้องตั้งค่าเพิ่มเติม) ไฟล์ปฏิบัติการ ydata_profiling
สามารถใช้ในบรรทัดคำสั่งได้ ตัวอย่างด้านล่างสร้างรายงานชื่อ Example Profiling Report โดยใช้ไฟล์การกำหนดค่าชื่อ default.yaml
ในไฟล์ report.html
โดยการประมวลผลชุดข้อมูล data.csv
ydata_profiling --title " Example Profiling Report " --config_file default.yaml data.csv report.html
รายละเอียดเพิ่มเติมเกี่ยวกับ CLI มีอยู่ในเอกสารประกอบ
รายงานตัวอย่างต่อไปนี้แสดงศักยภาพของแพ็คเกจในชุดข้อมูลและประเภทข้อมูลที่หลากหลาย:
รายละเอียดเพิ่มเติม รวมถึงข้อมูลเกี่ยวกับการสนับสนุนวิดเจ็ต มีอยู่ในเอกสารประกอบ
คุณสามารถติดตั้งโดยใช้ pip
package manager โดยเรียกใช้:
pip install -U ydata-profiling
แพ็คเกจประกาศ "พิเศษ" ซึ่งเป็นชุดการขึ้นต่อกันเพิ่มเติม
[notebook]
: รองรับการเรนเดอร์รายงานในวิดเจ็ตสมุดบันทึก Jupyter[unicode]
: รองรับการวิเคราะห์ Unicode ที่ละเอียดยิ่งขึ้น โดยเสียพื้นที่ดิสก์เพิ่มเติม[pyspark]
: รองรับ pyspark สำหรับการวิเคราะห์ชุดข้อมูลขนาดใหญ่ติดตั้งสิ่งเหล่านี้ด้วยเช่น
pip install -U ydata-profiling[notebook,unicode,pyspark]
คุณสามารถติดตั้งโดยใช้ตัวจัดการแพ็คเกจ conda
โดยเรียกใช้:
conda install -c conda-forge ydata-profiling
ดาวน์โหลดซอร์สโค้ดโดยการโคลนพื้นที่เก็บข้อมูลหรือคลิกที่ดาวน์โหลด ZIP เพื่อดาวน์โหลดเวอร์ชันเสถียรล่าสุด
ติดตั้งโดยไปที่ไดเร็กทอรีที่เหมาะสมและรัน:
pip install -e .
รายงานโปรไฟล์เขียนด้วย HTML และ CSS ซึ่งหมายความว่าจำเป็นต้องมีเบราว์เซอร์รุ่นใหม่
คุณต้องมี Python 3 เพื่อรันแพ็คเกจ การขึ้นต่อกันอื่นๆ สามารถพบได้ในไฟล์ข้อกำหนด:
ชื่อไฟล์ | ความต้องการ |
---|---|
ข้อกำหนด.txt | ข้อกำหนดแพ็คเกจ |
ข้อกำหนด-dev.txt | ข้อกำหนดสำหรับการพัฒนา |
ข้อกำหนด test.txt | ข้อกำหนดสำหรับการทดสอบ |
setup.py | ข้อกำหนดสำหรับวิดเจ็ต ฯลฯ |
เพื่อเพิ่มประโยชน์สูงสุดในบริบทโลกแห่งความเป็นจริง ydata-profiling
มีชุดของการบูรณาการโดยนัยและชัดเจนกับนักแสดงอื่น ๆ ที่หลากหลายในระบบนิเวศวิทยาศาสตร์ข้อมูล:
ประเภทบูรณาการ | คำอธิบาย |
---|---|
ไลบรารี DataFrame อื่น ๆ | วิธีการคำนวณการทำโปรไฟล์ข้อมูลที่จัดเก็บไว้ในไลบรารีอื่นที่ไม่ใช่แพนด้า |
ความคาดหวังอันยิ่งใหญ่ | การสร้างชุดความคาดหวังความคาดหวังที่ยอดเยี่ยมได้โดยตรงจากรายงานโปรไฟล์ |
แอปพลิเคชั่นแบบโต้ตอบ | การฝังรายงานโปรไฟล์ในแอปพลิเคชัน Streamlit, Dash หรือ Panel |
ไปป์ไลน์ | บูรณาการกับเครื่องมือดำเนินการเวิร์กโฟลว์ DAG เช่น Airflow หรือ Kedro |
บริการคลาวด์ | การใช้ ydata-profiling ในบริการคอมพิวเตอร์ที่โฮสต์ เช่น Lambda, Google Cloud หรือ Kaggle |
IDE | การใช้ ydata-profiling โดยตรงจากสภาพแวดล้อมการพัฒนาแบบรวม เช่น PyCharm |
ต้องการความช่วยเหลือ? ต้องการแบ่งปันมุมมอง? รายงานข้อผิดพลาด? แนวคิดสำหรับการทำงานร่วมกัน? ติดต่อได้ตามช่องทางดังนี้
ต้องการความช่วยเหลือ?
รับคำตอบสำหรับคำถามของคุณกับเจ้าของผลิตภัณฑ์โดยจองแชท Pawsome! -
❗ ก่อนที่จะรายงานปัญหาบน GitHub โปรดดูปัญหาทั่วไป
เรียนรู้วิธีการมีส่วนร่วมในคู่มือการมีส่วนร่วม
สถานที่เกณฑ์ต่ำในการถามคำถามหรือเริ่มมีส่วนร่วมคือ Discord ของชุมชน Data Centric AI
ขอบคุณมากสำหรับผู้มีส่วนร่วมที่น่าทึ่งของเราทุกคน!
ผนังผู้ร่วมสมทบที่ทำด้วยหินสมทบ