ydata profiling 다운로드 - ydata profiling 소스 코드 다운로드

ydata profiling

기타 소스코드

v4.12.0

다운로드

ydata 프로파일링

빌드 상태

문서 | 불화 | 스택 오버플로 | 최신 변경 내역

이 프로젝트가 마음에 드시나요? 여러분의 사랑을 보여주시고 피드백을 주세요!

ydata-profiling 주요 목표는 일관되고 빠른 솔루션으로 한 줄의 탐색적 데이터 분석(EDA) 경험을 제공하는 것입니다. 매우 편리한 pandas df.describe() 기능과 마찬가지로 ydata-profiling은 DataFrame의 확장된 분석을 제공하는 동시에 데이터 분석을 html 및 json 과 같은 다양한 형식으로 내보낼 수 있도록 합니다.

이 패키지는 시계열 및 텍스트를 포함하여 데이터 세트에 대한 간단하고 요약된 분석을 출력합니다.

데이터베이스 시스템과 완벽하게 통합할 수 있는 확장 가능한 솔루션을 찾고 계십니까?
YData Fabric Data Catalog를 활용하여 다양한 데이터베이스 및 스토리지(Oracle, Snowflake, PostGreSQL, GCS, S3 등)에 연결하고 Fabric에서 대화형 안내 프로파일링 경험을 활용하세요. 커뮤니티 버전을 확인해 보세요.

▶️ 빠른 시작

설치하다

pip install ydata-profiling

또는

conda install -c conda-forge ydata-profiling

프로파일링 시작

평소와 같이 pandas DataFrame 로드하는 것부터 시작하세요. 예를 들어 다음을 사용하세요.

 import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport

df = pd . DataFrame ( np . random . rand ( 100 , 5 ), columns = [ "a" , "b" , "c" , "d" , "e" ])

표준 프로파일링 보고서를 생성하려면 다음을 실행하기만 하면 됩니다.

 profile = ProfileReport ( df , title = "Profiling Report" )

주요 기능

유형 추론 : 열의 데이터 유형( Categorical , Numerical , Date 등) 자동 감지
경고 : 작업해야 할 수 있는 데이터의 문제/과제에 대한 요약( 누락된 데이터 , 부정확성 , 왜 도 등)
단변량 분석 : 기술 통계(평균, 중앙값, 모드 등) 및 분포 히스토그램과 같은 유용한 시각화 포함
다변량 분석 : 상관관계, 누락된 데이터에 대한 상세 분석, 중복 행, 변수 쌍별 상호 작용에 대한 시각적 지원 포함
시계열 : ACF 및 PACF 플롯을 따라 자기 상관 및 계절성과 같은 시간 종속 데이터와 관련된 다양한 통계 정보를 포함합니다.
텍스트 분석 : 가장 일반적인 범주(대문자, 소문자, 구분 기호), 스크립트(라틴 문자, 키릴 문자) 및 블록(ASCII, 키릴 문자)
파일 및 이미지 분석 : 파일 크기, 생성 날짜, 크기, 잘린 이미지 표시 및 EXIF 메타데이터 존재 여부
데이터 세트 비교 : 데이터 세트 비교에 대한 빠르고 완전한 보고서를 제공하는 원라인 솔루션
유연한 출력 형식 : 모든 분석은 다른 당사자와 쉽게 공유할 수 있는 HTML 보고서로 내보낼 수 있습니다. 자동화된 시스템에 쉽게 통합하기 위한 JSON과 Jupyter Notebook의 위젯으로 내보낼 수 있습니다.

보고서에는 세 가지 추가 섹션이 포함되어 있습니다.

개요 : 대부분 데이터 세트에 대한 전역 세부 정보(레코드 수, 변수 수, 전반적인 누락 및 중복, 메모리 사용 공간)
경고 : 잠재적인 데이터 품질 문제(높은 상관 관계, 왜도, 균일성, 0, 누락된 값, 상수 값 등)의 포괄적인 자동 목록입니다.
재생산 : 분석에 대한 기술적 세부사항(시간, 버전 및 구성)

? 최신 기능

확장하고 싶나요? ⚡Spark 지원으로 최신 릴리스를 확인하세요!
시계열에 대한 EDA를 수행할 수 있는 방법을 찾고 계십니까? ? 이 블로그 게시물을 확인하세요.
2개의 데이터세트를 비교하고 보고서를 받고 싶으신가요? 이 블로그 게시물을 확인하세요

불꽃

Spark 지원이 출시되었지만 우리는 항상 추가 인력을 찾고 있습니다. 현재 진행중인 작업을 확인하세요!.

사용 사례

YData 프로파일링은 다양한 사용 사례를 제공하는 데 사용될 수 있습니다. 문서에는 이러한 문제를 해결하기 위한 가이드, 팁 및 요령이 포함되어 있습니다.

사용 사례	설명
데이터 세트 비교	동일한 데이터 세트의 여러 버전 비교
시계열 데이터 세트 프로파일링	한 줄의 코드로 시계열 데이터 세트에 대한 보고서 생성
대규모 데이터 세트 프로파일링	대규모 데이터 세트 작업을 위해 데이터를 준비하고 `ydata-profiling` 구성하는 방법에 대한 팁
민감한 데이터 처리	입력 데이터세트의 민감한 데이터를 고려한 보고서 생성
데이터세트 메타데이터 및 데이터 사전	데이터세트 세부정보 및 열별 데이터 사전으로 보고서 보완
보고서 모양 사용자 정의	보고서 페이지 및 포함된 시각화의 모양 변경
데이터베이스 프로파일링	조직의 데이터베이스에서 원활한 프로파일링 경험을 위해서는 RDBM(Azure SQL, PostGreSQL, Oracle 등) 및 객체 스토리지(Google Cloud Storage, AWS S3, Snowflake 등) 등이 있습니다.

Jupyter Notebook 내부 사용

Jupyter 노트북 내에서 보고서를 사용하는 인터페이스는 위젯과 포함된 HTML 보고서라는 두 가지 인터페이스가 있습니다.

위의 내용은 단순히 보고서를 위젯 세트로 표시함으로써 달성됩니다. Jupyter Notebook에서 다음을 실행합니다.

 profile . to_widgets ()

비슷한 방식으로 HTML 보고서를 셀에 직접 포함할 수 있습니다.

 profile . to_notebook_iframe ()

보고서를 파일로 내보내기

HTML 보고서 파일을 생성하려면 ProfileReport 객체에 저장하고 to_file() 함수를 사용하십시오.

 profile . to_file ( "your_report.html" )

또는 보고서의 데이터를 JSON 파일로 얻을 수 있습니다.

 # As a JSON string
json_data = profile . to_json ()

# As a file
profile . to_file ( "your_report.json" )

명령줄에서 사용

표준 형식의 CSV 파일(추가 설정 없이 팬더가 직접 읽을 수 있음)의 경우 ydata_profiling 실행 파일을 명령줄에서 사용할 수 있습니다. 아래 예에서는 data.csv 데이터 세트를 처리하여 report.html 파일에서 default.yaml 이라는 구성 파일을 사용하여 example Profiling Report 라는 보고서를 생성합니다.

ydata_profiling --title " Example Profiling Report " --config_file default.yaml data.csv report.html

CLI에 대한 추가 세부정보는 설명서에서 확인할 수 있습니다.

? 예

다음 예제 보고서는 광범위한 데이터 세트 및 데이터 유형에 걸쳐 패키지의 잠재력을 보여줍니다.

인구 조사 소득(다른 인구통계학적 특성과 소득을 관련된 미국 성인 인구 조사 데이터)
NASA 운석(운석 착륙 종합 세트 - 물체 속성 및 위치)
타이타닉(데이터세트의 "Wonderwall")
NZA(네덜란드 보건 당국의 공개 데이터)
Stata Auto(1978년 자동차 데이터)
색상(간단한 색상 데이터세트)
Vektis (Vektis 네덜란드 의료 데이터)
UCI Bank Dataset(은행의 마케팅 데이터세트)
러시아어 어휘(유니코드 텍스트 분석을 보여주는 가장 일반적인 러시아어 단어 100개)
웹사이트 접근성(웹사이트 접근성 분석, URL 데이터 지원 시연)
오렌지 가격과
석탄 가격(테마 옵션을 보여주는 간단한 가격 변화 데이터 세트)
미국 대기질(시계열 대기질 데이터 세트 EDA 예)
HCC(의료 서비스의 공개 데이터 세트, 전처리 전후의 두 데이터 세트 간의 비교를 보여줌)

설치

위젯 지원에 대한 정보를 포함한 추가 세부정보는 설명서에서 확인할 수 있습니다.

핍 사용

다음을 실행하여 pip 패키지 관리자를 사용하여 설치할 수 있습니다.

pip install -U ydata-profiling

엑스트라

패키지는 추가 종속성 세트인 "extras"를 선언합니다.

[notebook] : Jupyter 노트북 위젯에서 보고서 렌더링을 지원합니다.
[unicode] : 추가 디스크 공간을 희생하여 보다 자세한 유니코드 분석을 지원합니다.
[pyspark] : 대규모 데이터 세트 분석을 위한 pyspark 지원

예를 들어 이것을 설치하십시오

pip install -U ydata-profiling[notebook,unicode,pyspark]

콘다 사용

다음을 실행하여 conda 패키지 관리자를 사용하여 설치할 수 있습니다.

conda install -c conda-forge ydata-profiling

소스에서 (개발)

저장소를 복제하여 소스 코드를 다운로드하거나 ZIP 다운로드를 클릭하여 최신 안정 버전을 다운로드하세요.

적절한 디렉터리로 이동하고 다음을 실행하여 설치합니다.

pip install -e .

프로파일링 보고서는 HTML과 CSS로 작성되므로 최신 브라우저가 필요합니다.

패키지를 실행하려면 Python 3이 필요합니다. 요구 사항 파일에서 다른 종속성을 찾을 수 있습니다.

파일 이름	요구사항
요구사항.txt	패키지 요구 사항
요구사항-dev.txt	개발 요구사항
요구사항-test.txt	테스트 요구 사항
setup.py	위젯 등에 대한 요구 사항

? 통합

실제 상황에서 유용성을 극대화하기 위해 ydata-profiling 데이터 과학 생태계의 다양한 다른 행위자와 암시적 및 명시적 통합을 갖추고 있습니다.

통합 유형	설명
기타 DataFrame 라이브러리	Pandas 이외의 라이브러리에 저장된 데이터의 프로파일링을 계산하는 방법
큰 기대	프로파일링 보고서에서 직접 Great Expectations 기대 제품군 생성
대화형 애플리케이션	Streamlit, Dash 또는 Panel 애플리케이션에 프로파일링 보고서 포함
파이프라인	Airflow 또는 Kedro와 같은 DAG 워크플로 실행 도구와 통합
클라우드 서비스	Lambda, Google Cloud 또는 Kaggle과 같은 호스팅된 계산 서비스에서 `ydata-profiling` 사용
십오 일	PyCharm과 같은 통합 개발 환경에서 직접 `ydata-profiling` 사용

? 지원하다

도움이 필요하신가요? 관점을 공유하고 싶나요? 버그를 신고하시겠습니까? 협업을 위한 아이디어? 다음 채널을 통해 연락하세요.

스택 오버플로: 패키지 사용 방법에 대한 질문에 이상적입니다.
GitHub 문제: 버그, 변경 제안, 기능 요청
Discord: 프로젝트 토론, 질문, 협업, 일반 채팅에 이상적입니다.

도움이 필요하신가요?
Pawsome 채팅을 예약하여 제품 소유자에게 질문에 대한 답변을 받으세요! ?

❗ GitHub에 문제를 보고하기 전에 일반적인 문제를 확인하세요.

?? 기여

기여 가이드에 참여하는 방법을 알아보세요.

질문을 하거나 기여를 시작할 수 있는 임계값이 낮은 곳은 Data Centric AI 커뮤니티의 Discord입니다.

우리의 놀라운 기여자들 모두에게 큰 감사를 드립니다!

contrib.rocks로 만든 기여자 벽.

확장하다

추가 정보

버전 v4.12.0
유형 기타 소스코드
업데이트 시간 2025-01-11
크기 17.03MB
출처 Github

ydata profiling

ydata 프로파일링

▶️ 빠른 시작

설치하다

프로파일링 시작

주요 기능

? 최신 기능

불꽃

사용 사례

Jupyter Notebook 내부 사용

보고서를 파일로 내보내기

명령줄에서 사용

? 예

설치

핍 사용

엑스트라

콘다 사용

소스에서 (개발)

? 통합

? 지원하다

?? 기여

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

GitHub the via/releases

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

termwind

wp functions