문서 | 불화 | 스택 오버플로 | 최신 변경 내역
이 프로젝트가 마음에 드시나요? 여러분의 사랑을 보여주시고 피드백을 주세요!
ydata-profiling
주요 목표는 일관되고 빠른 솔루션으로 한 줄의 탐색적 데이터 분석(EDA) 경험을 제공하는 것입니다. 매우 편리한 pandas df.describe()
기능과 마찬가지로 ydata-profiling은 DataFrame의 확장된 분석을 제공하는 동시에 데이터 분석을 html 및 json 과 같은 다양한 형식으로 내보낼 수 있도록 합니다.
이 패키지는 시계열 및 텍스트를 포함하여 데이터 세트에 대한 간단하고 요약된 분석을 출력합니다.
데이터베이스 시스템과 완벽하게 통합할 수 있는 확장 가능한 솔루션을 찾고 계십니까?
YData Fabric Data Catalog를 활용하여 다양한 데이터베이스 및 스토리지(Oracle, Snowflake, PostGreSQL, GCS, S3 등)에 연결하고 Fabric에서 대화형 안내 프로파일링 경험을 활용하세요. 커뮤니티 버전을 확인해 보세요.
pip install ydata-profiling
또는
conda install -c conda-forge ydata-profiling
평소와 같이 pandas DataFrame
로드하는 것부터 시작하세요. 예를 들어 다음을 사용하세요.
import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport
df = pd . DataFrame ( np . random . rand ( 100 , 5 ), columns = [ "a" , "b" , "c" , "d" , "e" ])
표준 프로파일링 보고서를 생성하려면 다음을 실행하기만 하면 됩니다.
profile = ProfileReport ( df , title = "Profiling Report" )
보고서에는 세 가지 추가 섹션이 포함되어 있습니다.
Spark 지원이 출시되었지만 우리는 항상 추가 인력을 찾고 있습니다. 현재 진행중인 작업을 확인하세요!.
YData 프로파일링은 다양한 사용 사례를 제공하는 데 사용될 수 있습니다. 문서에는 이러한 문제를 해결하기 위한 가이드, 팁 및 요령이 포함되어 있습니다.
사용 사례 | 설명 |
---|---|
데이터 세트 비교 | 동일한 데이터 세트의 여러 버전 비교 |
시계열 데이터 세트 프로파일링 | 한 줄의 코드로 시계열 데이터 세트에 대한 보고서 생성 |
대규모 데이터 세트 프로파일링 | 대규모 데이터 세트 작업을 위해 데이터를 준비하고 ydata-profiling 구성하는 방법에 대한 팁 |
민감한 데이터 처리 | 입력 데이터세트의 민감한 데이터를 고려한 보고서 생성 |
데이터세트 메타데이터 및 데이터 사전 | 데이터세트 세부정보 및 열별 데이터 사전으로 보고서 보완 |
보고서 모양 사용자 정의 | 보고서 페이지 및 포함된 시각화의 모양 변경 |
데이터베이스 프로파일링 | 조직의 데이터베이스에서 원활한 프로파일링 경험을 위해서는 RDBM(Azure SQL, PostGreSQL, Oracle 등) 및 객체 스토리지(Google Cloud Storage, AWS S3, Snowflake 등) 등이 있습니다. |
Jupyter 노트북 내에서 보고서를 사용하는 인터페이스는 위젯과 포함된 HTML 보고서라는 두 가지 인터페이스가 있습니다.
위의 내용은 단순히 보고서를 위젯 세트로 표시함으로써 달성됩니다. Jupyter Notebook에서 다음을 실행합니다.
profile . to_widgets ()
비슷한 방식으로 HTML 보고서를 셀에 직접 포함할 수 있습니다.
profile . to_notebook_iframe ()
HTML 보고서 파일을 생성하려면 ProfileReport
객체에 저장하고 to_file()
함수를 사용하십시오.
profile . to_file ( "your_report.html" )
또는 보고서의 데이터를 JSON 파일로 얻을 수 있습니다.
# As a JSON string
json_data = profile . to_json ()
# As a file
profile . to_file ( "your_report.json" )
표준 형식의 CSV 파일(추가 설정 없이 팬더가 직접 읽을 수 있음)의 경우 ydata_profiling
실행 파일을 명령줄에서 사용할 수 있습니다. 아래 예에서는 data.csv
데이터 세트를 처리하여 report.html
파일에서 default.yaml
이라는 구성 파일을 사용하여 example Profiling Report 라는 보고서를 생성합니다.
ydata_profiling --title " Example Profiling Report " --config_file default.yaml data.csv report.html
CLI에 대한 추가 세부정보는 설명서에서 확인할 수 있습니다.
다음 예제 보고서는 광범위한 데이터 세트 및 데이터 유형에 걸쳐 패키지의 잠재력을 보여줍니다.
위젯 지원에 대한 정보를 포함한 추가 세부정보는 설명서에서 확인할 수 있습니다.
다음을 실행하여 pip
패키지 관리자를 사용하여 설치할 수 있습니다.
pip install -U ydata-profiling
패키지는 추가 종속성 세트인 "extras"를 선언합니다.
[notebook]
: Jupyter 노트북 위젯에서 보고서 렌더링을 지원합니다.[unicode]
: 추가 디스크 공간을 희생하여 보다 자세한 유니코드 분석을 지원합니다.[pyspark]
: 대규모 데이터 세트 분석을 위한 pyspark 지원예를 들어 이것을 설치하십시오
pip install -U ydata-profiling[notebook,unicode,pyspark]
다음을 실행하여 conda
패키지 관리자를 사용하여 설치할 수 있습니다.
conda install -c conda-forge ydata-profiling
저장소를 복제하여 소스 코드를 다운로드하거나 ZIP 다운로드를 클릭하여 최신 안정 버전을 다운로드하세요.
적절한 디렉터리로 이동하고 다음을 실행하여 설치합니다.
pip install -e .
프로파일링 보고서는 HTML과 CSS로 작성되므로 최신 브라우저가 필요합니다.
패키지를 실행하려면 Python 3이 필요합니다. 요구 사항 파일에서 다른 종속성을 찾을 수 있습니다.
파일 이름 | 요구사항 |
---|---|
요구사항.txt | 패키지 요구 사항 |
요구사항-dev.txt | 개발 요구사항 |
요구사항-test.txt | 테스트 요구 사항 |
setup.py | 위젯 등에 대한 요구 사항 |
실제 상황에서 유용성을 극대화하기 위해 ydata-profiling
데이터 과학 생태계의 다양한 다른 행위자와 암시적 및 명시적 통합을 갖추고 있습니다.
통합 유형 | 설명 |
---|---|
기타 DataFrame 라이브러리 | Pandas 이외의 라이브러리에 저장된 데이터의 프로파일링을 계산하는 방법 |
큰 기대 | 프로파일링 보고서에서 직접 Great Expectations 기대 제품군 생성 |
대화형 애플리케이션 | Streamlit, Dash 또는 Panel 애플리케이션에 프로파일링 보고서 포함 |
파이프라인 | Airflow 또는 Kedro와 같은 DAG 워크플로 실행 도구와 통합 |
클라우드 서비스 | Lambda, Google Cloud 또는 Kaggle과 같은 호스팅된 계산 서비스에서 ydata-profiling 사용 |
십오 일 | PyCharm과 같은 통합 개발 환경에서 직접 ydata-profiling 사용 |
도움이 필요하신가요? 관점을 공유하고 싶나요? 버그를 신고하시겠습니까? 협업을 위한 아이디어? 다음 채널을 통해 연락하세요.
도움이 필요하신가요?
Pawsome 채팅을 예약하여 제품 소유자에게 질문에 대한 답변을 받으세요! ?
❗ GitHub에 문제를 보고하기 전에 일반적인 문제를 확인하세요.
기여 가이드에 참여하는 방법을 알아보세요.
질문을 하거나 기여를 시작할 수 있는 임계값이 낮은 곳은 Data Centric AI 커뮤니티의 Discord입니다.
우리의 놀라운 기여자들 모두에게 큰 감사를 드립니다!
contrib.rocks로 만든 기여자 벽.