Документация | Раздор | Переполнение стека | Последний журнал изменений
Вам нравится этот проект? Покажите нам свою любовь и оставьте отзыв!
Основная цель ydata-profiling
— предоставить однострочный исследовательский анализ данных (EDA) в виде согласованного и быстрого решения. Как и очень удобная функция pandas df.describe()
, ydata-profiling обеспечивает расширенный анализ DataFrame, позволяя экспортировать анализ данных в различные форматы, такие как html и json .
Пакет выводит простой и подробный анализ набора данных, включая временные ряды и текст .
Ищете масштабируемое решение, которое можно полностью интегрировать с вашими системами баз данных?
Используйте каталог данных YData Fabric для подключения к различным базам данных и хранилищам (Oracle, Snowflake, PostGreSQL, GCS, S3 и т. д.) и используйте интерактивный и управляемый опыт профилирования в Fabric. Посмотрите версию сообщества.
pip install ydata-profiling
или
conda install -c conda-forge ydata-profiling
Начните с загрузки DataFrame
pandas, как обычно, например, используя:
import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport
df = pd . DataFrame ( np . random . rand ( 100 , 5 ), columns = [ "a" , "b" , "c" , "d" , "e" ])
Чтобы создать стандартный отчет о профилировании, просто запустите:
profile = ProfileReport ( df , title = "Profiling Report" )
Отчет содержит три дополнительных раздела:
Поддержка Spark вышла, но нам всегда нужна дополнительная пара рук?. Проверьте текущую работу!.
YData-профилирование можно использовать для реализации множества различных вариантов использования. Документация включает руководства, советы и рекомендации по их решению:
Вариант использования | Описание |
---|---|
Сравнение наборов данных | Сравнение нескольких версий одного и того же набора данных |
Профилирование набора данных временных рядов | Создание отчета для набора данных временных рядов с помощью одной строки кода |
Профилирование больших наборов данных | Советы о том, как подготовить данные и настроить ydata-profiling для работы с большими наборами данных |
Обработка конфиденциальных данных | Создание отчетов, учитывающих конфиденциальные данные во входном наборе данных. |
Метаданные наборов данных и словари данных | Дополнение отчета подробностями набора данных и словарями данных для конкретных столбцов. |
Настройка внешнего вида отчета | Изменение внешнего вида страницы отчета и содержащихся в нем визуализаций. |
Профилирование баз данных | Для более удобного профилирования в базах данных вашей организации проверьте каталог данных Fabric, который позволяет использовать данные из различных типов хранилищ, таких как RDBM (Azure SQL, PostGreSQL, Oracle и т. д.) и объектных хранилищ (Google Cloud Storage, AWS S3, Снежинка и др.), среди других. |
Существует два интерфейса для использования отчета внутри блокнота Jupyter: через виджеты и через встроенный HTML-отчет.
Вышеупомянутое достигается простым отображением отчета в виде набора виджетов. В блокноте Jupyter запустите:
profile . to_widgets ()
HTML-отчет можно встроить непосредственно в ячейку аналогичным образом:
profile . to_notebook_iframe ()
Чтобы создать файл отчета HTML, сохраните ProfileReport
в объекте и используйте функцию to_file()
:
profile . to_file ( "your_report.html" )
Альтернативно данные отчета можно получить в виде файла JSON:
# As a JSON string
json_data = profile . to_json ()
# As a file
profile . to_file ( "your_report.json" )
Для файлов CSV стандартного формата (которые панды могут читать напрямую без дополнительных настроек) исполняемый файл ydata_profiling
можно использовать в командной строке. В приведенном ниже примере создается отчет с именем «Пример отчета о профилировании» с использованием файла конфигурации с именем default.yaml
в файле report.html
путем обработки набора данных data.csv
.
ydata_profiling --title " Example Profiling Report " --config_file default.yaml data.csv report.html
Дополнительные сведения о CLI доступны в документации.
Следующие примеры отчетов демонстрируют возможности пакета для широкого спектра наборов данных и типов данных:
Дополнительная информация, включая информацию о поддержке виджетов, доступна в документации.
Вы можете установить его с помощью менеджера пакетов pip
, выполнив:
pip install -U ydata-profiling
В пакете объявлены «экстра», наборы дополнительных зависимостей.
[notebook]
: поддержка рендеринга отчета в виджетах блокнота Jupyter.[unicode]
: поддержка более детального анализа Unicode за счет дополнительного дискового пространства.[pyspark]
: поддержка pyspark для анализа больших наборов данных.Установите их, например,
pip install -U ydata-profiling[notebook,unicode,pyspark]
Вы можете установить с помощью менеджера пакетов conda
, запустив:
conda install -c conda-forge ydata-profiling
Загрузите исходный код, клонировав репозиторий, или нажмите «Загрузить ZIP», чтобы загрузить последнюю стабильную версию.
Установите его, перейдя в соответствующий каталог и выполнив:
pip install -e .
Отчет о профилировании написан на HTML и CSS, поэтому требуется современный браузер.
Для запуска пакета вам понадобится Python 3. Другие зависимости можно найти в файлах требований:
Имя файла | Требования |
---|---|
требования.txt | Требования к пакету |
требования-dev.txt | Требования к разработке |
требования-test.txt | Требования к тестированию |
setup.py | Требования к виджетам и т.д. |
Чтобы максимизировать свою полезность в реальных условиях, ydata-profiling
имеет набор неявных и явных интеграций с множеством других участников экосистемы Data Science:
Тип интеграции | Описание |
---|---|
Другие библиотеки DataFrame | Как вычислить профилирование данных, хранящихся в библиотеках, отличных от pandas |
Большие надежды | Создание наборов ожиданий «Большие надежды» непосредственно из профилирующего отчета |
Интерактивные приложения | Встраивание отчетов профилирования в приложения Streamlit, Dash или Panel. |
Трубопроводы | Интеграция с инструментами выполнения рабочих процессов DAG, такими как Airflow или Kedro. |
Облачные сервисы | Использование ydata-profiling в размещенных вычислительных сервисах, таких как Lambda, Google Cloud или Kaggle. |
Иды | Использование ydata-profiling непосредственно из интегрированных сред разработки, таких как PyCharm. |
Нужна помощь? Хотите поделиться точкой зрения? Сообщить об ошибке? Идеи для сотрудничества? Обращайтесь по следующим каналам:
Нужна помощь?
Получите ответы на свои вопросы вместе с владельцем продукта, записавшись в чат Pawsome! ?
❗ Прежде чем сообщать о проблеме на GitHub, ознакомьтесь с разделом «Распространенные проблемы».
Узнайте, как принять участие в Руководстве для участников.
Низкопороговым местом, где можно задать вопросы или начать вносить свой вклад, является Discord сообщества Data Centric AI.
Большое спасибо всем нашим замечательным участникам!
Стена авторов, созданная с помощью contrib.rocks.