Documentación | Discordia | Desbordamiento de pila | Último registro de cambios
¿Te gusta este proyecto? ¡Muéstranos tu amor y danos tu opinión!
El objetivo principal ydata-profiling
es proporcionar una experiencia de análisis de datos exploratorios (EDA) de una sola línea en una solución consistente y rápida. Al igual que la función pandas df.describe()
, que es muy útil, ydata-profiling ofrece un análisis extendido de un DataFrame y al mismo tiempo permite exportar el análisis de datos en diferentes formatos, como html y json .
El paquete genera un análisis simple y resumido de un conjunto de datos, que incluye series temporales y texto .
¿Busca una solución escalable que pueda integrarse completamente con sus sistemas de bases de datos?
Aproveche YData Fabric Data Catalog para conectarse a diferentes bases de datos y almacenamientos (Oracle, Snowflake, PostGreSQL, GCS, S3, etc.) y aproveche una experiencia de creación de perfiles interactiva y guiada en Fabric. Consulte la versión comunitaria.
pip install ydata-profiling
o
conda install -c conda-forge ydata-profiling
Comience cargando su Pandas DataFrame
como lo haría normalmente, por ejemplo, usando:
import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport
df = pd . DataFrame ( np . random . rand ( 100 , 5 ), columns = [ "a" , "b" , "c" , "d" , "e" ])
Para generar el informe de creación de perfiles estándar, simplemente ejecute:
profile = ProfileReport ( df , title = "Profiling Report" )
El informe contiene tres secciones adicionales:
Se ha lanzado el soporte Spark, pero ¿siempre estamos buscando un par de manos extra? ¡Consulta el trabajo actual en progreso!.
El perfilado de datos Y se puede utilizar para ofrecer una variedad de casos de uso diferentes. La documentación incluye guías, consejos y trucos para afrontarlos:
Caso de uso | Descripción |
---|---|
Comparando conjuntos de datos | Comparar varias versiones del mismo conjunto de datos |
Perfilar un conjunto de datos de series temporales | Generar un informe para un conjunto de datos de series temporales con una sola línea de código |
Elaboración de perfiles de grandes conjuntos de datos | Consejos sobre cómo preparar datos y configurar ydata-profiling para trabajar con grandes conjuntos de datos |
Manejo de datos confidenciales | Generar informes que tengan en cuenta los datos confidenciales en el conjunto de datos de entrada |
Metadatos de conjuntos de datos y diccionarios de datos. | Complementar el informe con detalles del conjunto de datos y diccionarios de datos específicos de columnas |
Personalizar la apariencia del informe | Cambiar la apariencia de la página del informe y de las visualizaciones contenidas |
Bases de datos de perfiles | Para obtener una experiencia de creación de perfiles perfecta en las bases de datos de su organización, consulte Fabric Data Catalog, que permite consumir datos de diferentes tipos de almacenamiento, como RDBM (Azure SQL, PostGreSQL, Oracle, etc.) y almacenamientos de objetos (Google Cloud Storage, AWS S3, Copo de nieve, etc.), entre otros. |
Hay dos interfaces para consumir el informe dentro de un cuaderno Jupyter: a través de widgets y mediante un informe HTML integrado.
Lo anterior se logra simplemente mostrando el informe como un conjunto de widgets. En un Jupyter Notebook, ejecute:
profile . to_widgets ()
El informe HTML se puede incrustar directamente en una celda de manera similar:
profile . to_notebook_iframe ()
Para generar un archivo de informe HTML, guarde el ProfileReport
en un objeto y use la función to_file()
:
profile . to_file ( "your_report.html" )
Alternativamente, los datos del informe se pueden obtener como un archivo JSON:
# As a JSON string
json_data = profile . to_json ()
# As a file
profile . to_file ( "your_report.json" )
Para archivos CSV con formato estándar (que pandas pueden leer directamente sin configuraciones adicionales), el ejecutable ydata_profiling
se puede usar en la línea de comando. El siguiente ejemplo genera un informe denominado Informe de perfil de ejemplo , utilizando un archivo de configuración llamado default.yaml
, en el archivo report.html
procesando un conjunto de datos data.csv
.
ydata_profiling --title " Example Profiling Report " --config_file default.yaml data.csv report.html
Detalles adicionales sobre la CLI están disponibles en la documentación.
Los siguientes informes de ejemplo muestran las potencialidades del paquete en una amplia gama de conjuntos y tipos de datos:
En la documentación se encuentran disponibles detalles adicionales, incluida información sobre la compatibilidad con widgets.
Puede instalar usando el administrador de paquetes pip
ejecutando:
pip install -U ydata-profiling
El paquete declara "extras", conjuntos de dependencias adicionales.
[notebook]
: soporte para representar el informe en los widgets del cuaderno de Jupyter.[unicode]
: soporte para análisis Unicode más detallados, a expensas de espacio adicional en disco.[pyspark]
: soporte para pyspark para análisis de grandes conjuntos de datosInstálelos con, por ejemplo
pip install -U ydata-profiling[notebook,unicode,pyspark]
Puede instalar usando el administrador de paquetes conda
ejecutando:
conda install -c conda-forge ydata-profiling
Descargue el código fuente clonando el repositorio o haga clic en Descargar ZIP para descargar la última versión estable.
Instálelo navegando al directorio adecuado y ejecutando:
pip install -e .
El informe de creación de perfiles está escrito en HTML y CSS, lo que significa que se requiere un navegador moderno.
Necesita Python 3 para ejecutar el paquete. Otras dependencias se pueden encontrar en los archivos de requisitos:
Nombre del archivo | Requisitos |
---|---|
requisitos.txt | Requisitos del paquete |
requisitos-dev.txt | Requisitos para el desarrollo. |
requisitos-prueba.txt | Requisitos para las pruebas |
configuración.py | Requisitos para widgets, etc. |
Para maximizar su utilidad en contextos del mundo real, ydata-profiling
tiene un conjunto de integraciones implícitas y explícitas con una variedad de otros actores en el ecosistema de ciencia de datos:
Tipo de integración | Descripción |
---|---|
Otras bibliotecas de DataFrame | Cómo calcular el perfil de datos almacenados en bibliotecas distintas a pandas |
Grandes expectativas | Generación de conjuntos de expectativas de Grandes Expectativas directamente desde un informe de elaboración de perfiles |
Aplicaciones interactivas | Incrustar informes de perfiles en aplicaciones Streamlit, Dash o Panel |
Tuberías | Integración con herramientas de ejecución de flujo de trabajo DAG como Airflow o Kedro |
Servicios en la nube | Uso de ydata-profiling en servicios informáticos alojados como Lambda, Google Cloud o Kaggle |
IDE | Uso de ydata-profiling directamente desde entornos de desarrollo integrados como PyCharm |
¿Necesitar ayuda? ¿Quieres compartir una perspectiva? ¿Informar un error? ¿Ideas para colaboraciones? Comuníquese a través de los siguientes canales:
¿Necesitar ayuda?
¡Obtenga respuestas a sus preguntas con el propietario de un producto reservando un chat Pawsome! ?
❗ Antes de informar un problema en GitHub, consulte Problemas comunes.
Aprenda cómo participar en la Guía de Contribuciones.
Un lugar de bajo umbral para hacer preguntas o comenzar a contribuir es Discord de la comunidad de IA centrada en datos.
¡Muchas gracias a todos nuestros increíbles contribuyentes!
Muro de contribuyentes hecho con contrib.rocks.