Тестирование | |
Упаковка | |
Мета |
pandas — это пакет Python, который предоставляет быстрые, гибкие и выразительные структуры данных, предназначенные для того, чтобы сделать работу с «реляционными» или «помеченными» данными простой и интуитивно понятной. Он призван стать фундаментальным строительным блоком высокого уровня для практического анализа реальных данных в Python. Кроме того, перед ним стоит более широкая цель — стать самым мощным и гибким инструментом анализа/манипулирования данными с открытым исходным кодом, доступным на любом языке . Он уже уверенно движется к этой цели.
Основные характеристики
Где это получить
Зависимости
Установка из исходников
Лицензия
Документация
Фон
Получение помощи
Обсуждение и развитие
Помощь пандам
Вот лишь некоторые из вещей, с которыми панды справляются хорошо:
Простая обработка недостающих данных (представленных как NaN
, NA
или NaT
) в формате с плавающей запятой, а также данных без плавающей запятой.
Изменяемость размера: столбцы можно вставлять и удалять из DataFrame и объектов более высокого размера.
Автоматическое и явное выравнивание данных : объекты могут быть явно выровнены по набору меток, или пользователь может просто игнорировать метки и позволить Series
, DataFrame
и т. д. автоматически выравнивать данные для вас в вычислениях.
Мощная и гибкая функция группировки для выполнения операций разделения, применения и объединения наборов данных как для агрегирования, так и для преобразования данных.
Упростите преобразование неровных данных с разными индексами в других структурах данных Python и NumPy в объекты DataFrame.
Интеллектуальная нарезка на основе меток, многофункциональная индексация и разделение больших наборов данных.
Интуитивное слияние и соединение наборов данных
Гибкое изменение формы и поворот наборов данных
Иерархическая маркировка осей (возможно иметь несколько меток на такт)
Надежные инструменты ввода-вывода для загрузки данных из плоских файлов (CSV и с разделителями), файлов Excel , баз данных , а также сохранения/загрузки данных из сверхбыстрого формата HDF5.
Функциональность, специфичная для временных рядов : генерация диапазона дат и преобразование частоты, статистика движущегося окна, сдвиг даты и отставание.
Исходный код в настоящее время размещен на GitHub по адресу: https://github.com/pandas-dev/pandas.
Двоичные установщики последней выпущенной версии доступны в Индексе пакетов Python (PyPI) и на Conda.
# condaconda install -c conda-forge pandas
# или PyPIpip установите панды
Список изменений в pandas между каждым выпуском можно найти здесь. Подробную информацию см. в журналах коммитов по адресу https://github.com/pandas-dev/pandas.
NumPy — добавляет поддержку больших многомерных массивов, матриц и математических функций высокого уровня для работы с этими массивами.
python-dateutil — предоставляет мощные расширения стандартного модуля datetime.
pytz — переносит базу данных Olson tz в Python, что позволяет выполнять точные и межплатформенные расчеты часовых поясов.
В полных инструкциях по установке указаны минимальные поддерживаемые версии обязательных, рекомендуемых и дополнительных зависимостей.
Чтобы установить pandas из исходного кода, вам понадобится Cython в дополнение к обычным зависимостям, указанным выше. Cython можно установить из PyPI:
pip установить Cython
В каталоге pandas
(том же, где вы нашли этот файл после клонирования репозитория git) выполните:
установка пипа.
или для установки в режиме разработки:
python -m pip install -ve. --no-build-isolation -Ceditable-verbose=true
См. полную инструкцию по установке из исходного кода.
БСД 3
Официальная документация размещена на PyData.org.
Работа над pandas
началась в AQR (количественном хедж-фонде) в 2008 году и с тех пор находится в стадии активного развития.
По вопросам использования лучше всего обращаться к StackOverflow. Кроме того, общие вопросы и обсуждения также можно задать в списке рассылки pydata.
Большинство обсуждений разработки происходит на GitHub в этом репозитории через систему отслеживания ошибок GitHub.
Кроме того, список рассылки pandas-dev также можно использовать для специализированных обсуждений или вопросов дизайна, а канал Slack доступен для вопросов, связанных с быстрой разработкой.
Также часто проводятся общественные встречи для сопровождающих проектов, открытые для сообщества, а также ежемесячные встречи новых участников, чтобы помочь поддержать новых участников.
Дополнительную информацию о каналах связи можно найти на странице сообщества участников.
Приветствуются любые вклады, отчеты об ошибках, исправления ошибок, улучшения документации, улучшения и идеи.
Подробный обзор того, как внести свой вклад, можно найти в руководстве по участию .
Если вы просто хотите начать работать с кодовой базой pandas, перейдите на вкладку «Проблемы» GitHub и начните просматривать интересные проблемы. В разделе «Документация» перечислен ряд проблем, а также хороший первый выпуск, с которого вы можете начать.
Вы также можете сортировать проблемы, которые могут включать воспроизведение отчетов об ошибках или запрос важной информации, такой как номера версий или инструкции по воспроизведению. Если вы хотите начать сортировку проблем, один из простых способов начать — подписаться на pandas на CodeTriage.
Или, может быть, благодаря использованию pandas у вас появилась собственная идея или вы ищете что-то в документации и думаете: «Это можно улучшить»… вы можете что-то с этим сделать!
Не стесняйтесь задавать вопросы в списке рассылки или в Slack.
Как участники и сопровождающие этого проекта, вы должны соблюдать кодекс поведения pandas. Более подробную информацию можно найти по адресу: Кодекс поведения участника.
Перейти наверх