Documentação | Discórdia | Estouro de pilha | Último registro de alterações
Você gosta deste projeto? Mostre-nos o seu amor e dê feedback!
O objetivo principal ydata-profiling
é fornecer uma experiência de Análise Exploratória de Dados (EDA) de uma linha em uma solução consistente e rápida. Assim como a função df.describe()
do pandas, que é tão útil, o ydata-profiling oferece uma análise estendida de um DataFrame enquanto permite que a análise de dados seja exportada em diferentes formatos, como html e json .
O pacote gera uma análise simples e resumida de um conjunto de dados, incluindo séries temporais e textos .
Procurando uma solução escalável que possa ser totalmente integrada aos seus sistemas de banco de dados?
Aproveite o YData Fabric Data Catalog para conectar-se a diferentes bancos de dados e armazenamentos (Oracle, snowflake, PostGreSQL, GCS, S3, etc.) e aproveite uma experiência de criação de perfil interativa e guiada no Fabric. Confira a versão da comunidade.
pip install ydata-profiling
ou
conda install -c conda-forge ydata-profiling
Comece carregando seu DataFrame
do pandas como faria normalmente, por exemplo, usando:
import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport
df = pd . DataFrame ( np . random . rand ( 100 , 5 ), columns = [ "a" , "b" , "c" , "d" , "e" ])
Para gerar o relatório de perfil padrão, basta executar:
profile = ProfileReport ( df , title = "Profiling Report" )
O relatório contém três seções adicionais:
O suporte Spark foi lançado, mas estamos sempre em busca de um par de mãos extra?. Verifique o trabalho atual em andamento!
O perfil YData pode ser usado para fornecer uma variedade de casos de uso diferentes. A documentação inclui guias, dicas e truques para lidar com eles:
Caso de uso | Descrição |
---|---|
Comparando conjuntos de dados | Comparando várias versões do mesmo conjunto de dados |
Criação de perfil de um conjunto de dados de série temporal | Gerando um relatório para um conjunto de dados de série temporal com uma única linha de código |
Criação de perfil de grandes conjuntos de dados | Dicas sobre como preparar dados e configurar ydata-profiling para trabalhar com grandes conjuntos de dados |
Tratamento de dados confidenciais | Gerando relatórios que levam em consideração os dados confidenciais no conjunto de dados de entrada |
Metadados de conjunto de dados e dicionários de dados | Complementando o relatório com detalhes do conjunto de dados e dicionários de dados específicos de colunas |
Personalizando a aparência do relatório | Alterando a aparência da página do relatório e das visualizações contidas |
Criação de perfil de bancos de dados | Para uma experiência perfeita de criação de perfil nos bancos de dados da sua organização, verifique o Fabric Data Catalog, que permite consumir dados de diferentes tipos de armazenamento, como RDBMs (Azure SQL, PostGreSQL, Oracle, etc.) e armazenamentos de objetos (Google Cloud Storage, AWS S3, Floco de neve, etc.), entre outros. |
Existem duas interfaces para consumir o relatório dentro de um notebook Jupyter: por meio de widgets e por meio de um relatório HTML incorporado.
O acima exposto é conseguido simplesmente exibindo o relatório como um conjunto de widgets. Em um Jupyter Notebook, execute:
profile . to_widgets ()
O relatório HTML pode ser incorporado diretamente em uma célula de maneira semelhante:
profile . to_notebook_iframe ()
Para gerar um arquivo de relatório HTML, salve o ProfileReport
em um objeto e use a função to_file()
:
profile . to_file ( "your_report.html" )
Alternativamente, os dados do relatório podem ser obtidos como um arquivo JSON:
# As a JSON string
json_data = profile . to_json ()
# As a file
profile . to_file ( "your_report.json" )
Para arquivos CSV formatados padrão (que podem ser lidos diretamente pelo pandas sem configurações adicionais), o executável ydata_profiling
pode ser usado na linha de comando. O exemplo abaixo gera um relatório chamado Exemplo de Relatório de Criação de Perfil , usando um arquivo de configuração chamado default.yaml
, no arquivo report.html
processando um conjunto de dados data.csv
.
ydata_profiling --title " Example Profiling Report " --config_file default.yaml data.csv report.html
Detalhes adicionais sobre a CLI estão disponíveis na documentação.
Os exemplos de relatórios a seguir mostram as potencialidades do pacote em uma ampla variedade de conjuntos de dados e tipos de dados:
Detalhes adicionais, incluindo informações sobre suporte a widgets, estão disponíveis na documentação.
Você pode instalar usando o gerenciador de pacotes pip
executando:
pip install -U ydata-profiling
O pacote declara “extras”, conjuntos de dependências adicionais.
[notebook]
: suporte para renderização do relatório em widgets de notebook Jupyter.[unicode]
: suporte para análise Unicode mais detalhada, às custas de espaço adicional em disco.[pyspark]
: suporte para pyspark para análise de big datasetInstale-os com, por exemplo
pip install -U ydata-profiling[notebook,unicode,pyspark]
Você pode instalar usando o gerenciador de pacotes conda
executando:
conda install -c conda-forge ydata-profiling
Baixe o código-fonte clonando o repositório ou clique em Baixar ZIP para baixar a versão estável mais recente.
Instale-o navegando até o diretório apropriado e executando:
pip install -e .
O relatório de criação de perfil é escrito em HTML e CSS, o que significa que é necessário um navegador moderno.
Você precisa do Python 3 para executar o pacote. Outras dependências podem ser encontradas nos arquivos de requisitos:
Nome do arquivo | Requisitos |
---|---|
requisitos.txt | Requisitos do pacote |
requisitos-dev.txt | Requisitos para desenvolvimento |
requisitos-test.txt | Requisitos para teste |
setup.py | Requisitos para widgets etc. |
Para maximizar a sua utilidade em contextos do mundo real, ydata-profiling
tem um conjunto de integrações implícitas e explícitas com uma variedade de outros atores no ecossistema da Ciência de Dados:
Tipo de integração | Descrição |
---|---|
Outras bibliotecas DataFrame | Como calcular o perfil de dados armazenados em bibliotecas diferentes do pandas |
Grandes expectativas | Gerando conjuntos de expectativas Grandes Expectativas diretamente de um relatório de perfil |
Aplicativos interativos | Incorporação de relatórios de perfil em aplicativos Streamlit, Dash ou Panel |
Gasodutos | Integração com ferramentas de execução de fluxo de trabalho DAG como Airflow ou Kedro |
Serviços em nuvem | Usando ydata-profiling em serviços de computação hospedados como Lambda, Google Cloud ou Kaggle |
IDEs | Usando ydata-profiling diretamente de ambientes de desenvolvimento integrados, como PyCharm |
Precisar de ajuda? Quer compartilhar uma perspectiva? Relatar um bug? Ideias para colaborações? Entre em contato pelos seguintes canais:
Precisar de ajuda?
Tire suas dúvidas com o proprietário do produto agendando um bate-papo Pawsome! ?
❗ Antes de relatar um problema no GitHub, confira Problemas comuns.
Saiba como se envolver no Guia de Contribuição.
Um lugar fácil para fazer perguntas ou começar a contribuir é o Discord da comunidade de IA centrada em dados.
Um grande obrigado a todos os nossos incríveis colaboradores!
Parede de contribuidores feita com contrib.rocks.