Pruebas | |
Paquete | |
Meta |
pandas es un paquete de Python que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para hacer que trabajar con datos "relacionales" o "etiquetados" sea fácil e intuitivo. Su objetivo es ser el componente fundamental de alto nivel para realizar análisis de datos prácticos y del mundo real en Python. Además, tiene el objetivo más amplio de convertirse en la herramienta de manipulación/análisis de datos de código abierto más poderosa y flexible disponible en cualquier idioma . Ya va por buen camino hacia este objetivo.
Características principales
donde conseguirlo
Dependencias
Instalación desde fuentes
Licencia
Documentación
Fondo
Obtener ayuda
Discusión y desarrollo
Contribuyendo a los pandas
Estas son sólo algunas de las cosas que los pandas hacen bien:
Fácil manejo de datos faltantes (representados como NaN
, NA
o NaT
) en punto flotante y en datos de punto no flotante.
Mutabilidad de tamaño: las columnas se pueden insertar y eliminar de DataFrame y objetos de dimensiones superiores
Alineación de datos automática y explícita: los objetos se pueden alinear explícitamente con un conjunto de etiquetas, o el usuario puede simplemente ignorar las etiquetas y dejar que Series
, DataFrame
, etc. alineen automáticamente los datos en los cálculos.
Potente y flexible funcionalidad de agrupar por para realizar operaciones de división, aplicación y combinación en conjuntos de datos, tanto para agregar como para transformar datos.
Facilite la conversión de datos irregulares e indexados de forma diferente en otras estructuras de datos de Python y NumPy en objetos DataFrame.
División inteligente basada en etiquetas, indexación sofisticada y subconjunto de grandes conjuntos de datos
Fusionar y unir conjuntos de datos de forma intuitiva
Reestructuración y pivotación flexibles de conjuntos de datos
Etiquetado jerárquico de ejes (es posible tener varias etiquetas por tick)
Robustas herramientas de E/S para cargar datos desde archivos planos (CSV y delimitados), archivos Excel , bases de datos y guardar/cargar datos desde el formato ultrarrápido HDF5.
Funcionalidad específica de series temporales : generación de intervalos de fechas y conversión de frecuencia, estadísticas de ventanas móviles, desplazamiento y retraso de fechas
El código fuente está actualmente alojado en GitHub en: https://github.com/pandas-dev/pandas
Los instaladores binarios para la última versión lanzada están disponibles en Python Package Index (PyPI) y en Conda.
# instalación de condaconda -c pandas conda-forge
# o PyPIpip instala pandas
La lista de cambios en pandas entre cada versión se puede encontrar aquí. Para obtener detalles completos, consulte los registros de confirmación en https://github.com/pandas-dev/pandas.
NumPy: agrega soporte para matrices, matrices y funciones matemáticas de alto nivel grandes y multidimensionales para operar en estas matrices
python-dateutil: proporciona potentes extensiones al módulo de fecha y hora estándar
pytz: incorpora la base de datos Olson tz a Python, lo que permite cálculos precisos y multiplataforma de zona horaria.
Consulte las instrucciones de instalación completas para conocer las versiones mínimas admitidas de las dependencias requeridas, recomendadas y opcionales.
Para instalar pandas desde el código fuente, necesita Cython además de las dependencias normales anteriores. Cython se puede instalar desde PyPI:
pip instalar cython
En el directorio pandas
(el mismo donde encontró este archivo después de clonar el repositorio de git), ejecute:
instalación de pipas.
o para instalar en modo desarrollo:
python -m pip instalar -ve. --no-build-isolation -Ceditable-verbose=true
Consulte las instrucciones completas para instalar desde la fuente.
BSD 3
La documentación oficial está alojada en PyData.org.
El trabajo sobre pandas
comenzó en AQR (un fondo de cobertura cuantitativo) en 2008 y ha estado en desarrollo activo desde entonces.
Si tiene preguntas sobre el uso, el mejor lugar al que acudir es StackOverflow. Además, también se pueden realizar preguntas y debates generales en la lista de correo de pydata.
La mayoría de las discusiones sobre desarrollo se llevan a cabo en GitHub en este repositorio, a través del rastreador de problemas de GitHub.
Además, la lista de correo de pandas-dev también se puede utilizar para debates especializados o cuestiones de diseño, y hay un canal de Slack disponible para preguntas relacionadas con el desarrollo rápido.
También hay reuniones comunitarias frecuentes para los mantenedores de proyectos abiertas a la comunidad, así como reuniones mensuales de nuevos contribuyentes para ayudar a apoyar a los nuevos contribuyentes.
Puede encontrar información adicional sobre los canales de comunicación en la página de la comunidad de colaboradores.
Todas las contribuciones, informes de errores, correcciones de errores, mejoras de documentación, mejoras e ideas son bienvenidas.
Puede encontrar una descripción detallada sobre cómo contribuir en la guía de contribución .
Si simplemente desea comenzar a trabajar con el código base de Pandas, navegue hasta la pestaña "Problemas" de GitHub y comience a buscar problemas interesantes. Hay una serie de problemas enumerados en Documentos y un buen primer problema con el que puede comenzar.
También puede clasificar problemas que pueden incluir la reproducción de informes de errores o solicitar información vital, como números de versión o instrucciones de reproducción. Si desea comenzar a clasificar problemas, una forma sencilla de hacerlo es suscribirse a pandas en CodeTriage.
O tal vez al usar pandas tienes una idea propia o estás buscando algo en la documentación y piensas "esto se puede mejorar"... ¡puedes hacer algo al respecto!
No dudes en hacer preguntas en la lista de correo o en Slack.
Como contribuyentes y mantenedores de este proyecto, se espera que respeten el código de conducta de pandas. Puede encontrar más información en: Código de conducta del colaborador
Ir arriba