Этот репозиторий является частью проекта Synthetic Data Vault Project от DataCebo.
Copulas — это библиотека Python для моделирования многомерных распределений и выборки из них с использованием функций копулы. Учитывая таблицу числовых данных, используйте копулы, чтобы изучить распределение и сгенерировать новые синтетические данные, соответствующие тем же статистическим свойствам.
Ключевые особенности:
Смоделируйте многомерные данные. Выбирайте из множества одномерных распределений и копул, включая архимедовы копулы, гауссовы копулы и копулы Vine.
После построения модели визуально сравните реальные и синтетические данные . Визуализации доступны в виде 1D-гистограмм, 2D-диаграмм и 3D-диаграмм рассеяния.
Доступ и манипулирование изученными параметрами. Имея полный доступ ко внутреннему устройству модели, можно устанавливать или настраивать параметры по своему усмотрению.
Установите библиотеку Copulas с помощью pip или conda.
pip install copulas
conda install -c conda-forge copulas
Начните использовать демонстрационный набор данных. Этот набор данных содержит 3 числовых столбца.
from copulas . datasets import sample_trivariate_xyz
real_data = sample_trivariate_xyz ()
real_data . head ()
Смоделируйте данные с помощью копулы и используйте ее для создания синтетических данных. Библиотека Copulas предлагает множество вариантов, включая гауссову копулу, Vine Copulas и архимедовую копулу.
from copulas . multivariate import GaussianMultivariate
copula = GaussianMultivariate ()
copula . fit ( real_data )
synthetic_data = copula . sample ( len ( real_data ))
Визуализируйте реальные и синтетические данные одновременно. Давайте сделаем это в 3D, чтобы увидеть наш полный набор данных.
from copulas . visualization import compare_3d
compare_3d ( real_data , synthetic_data )
Нажмите ниже, чтобы самостоятельно запустить код на блокноте Colab и открыть для себя новые функции.
Узнайте больше о библиотеке Copulas на нашем сайте документации.
Вопросы или проблемы? Присоединяйтесь к нашему каналу Slack, чтобы больше обсудить копулы и синтетические данные. Если вы обнаружили ошибку или у вас есть запрос на добавление функции, вы также можете открыть проблему на нашем GitHub.
Хотите внести свой вклад в Copulas? Чтобы начать, прочтите наше Руководство по вкладу.
Проект с открытым исходным кодом Copulas впервые стартовал в лаборатории Data to AI Lab Массачусетского технологического института в 2018 году. Спасибо нашей команде участников, которые создавали и поддерживали библиотеку на протяжении многих лет!
Просмотреть участников
Проект Synthetic Data Vault был впервые создан в лаборатории Data to AI Lab Массачусетского технологического института в 2016 году. После 4 лет исследований и сотрудничества с предприятием мы создали DataCebo в 2020 году с целью развития проекта. Сегодня DataCebo является гордым разработчиком SDV, крупнейшей экосистемы для создания и оценки синтетических данных. Здесь находится множество библиотек, поддерживающих синтетические данные, в том числе:
Начните использовать пакет SDV — полностью интегрированное решение и универсальный магазин синтетических данных. Или используйте автономные библиотеки для конкретных нужд.