Pandas en AWS
Fácil integración con Athena, Glue, Redshift, Timestream, OpenSearch, Neptune, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer y S3 (Parquet, CSV, JSON y EXCEL).
Una iniciativa de código abierto de AWS Professional Service | [email protected]
Fuente | Descargas | Comando de instalación |
---|---|---|
PyPi | pip install awswrangler | |
conda | conda install -c conda-forge awswrangler |
️ A partir de la versión 3.0, los módulos opcionales deben instalarse explícitamente:
➡️pip install 'awswrangler[redshift]'
Inicio rápido
A escala
Lea los documentos
Obtener ayuda
Explotación florestal
Comando de instalación: pip install awswrangler
️ A partir de la versión 3.0, los módulos opcionales deben instalarse explícitamente:
➡️pip install 'awswrangler[redshift]'
importar awswrangler como wrimport pandas como pdffrom datetime import datetimedf = pd.DataFrame({"id": [1, 2], "value": ["foo", "boo"]})# Almacenamiento de datos en Data Lakewr.s3. to_parquet(df=df,path="s3://bucket/dataset/",dataset=True,database="my_db",table="my_table")# Recuperando los datos directamente de Amazon S3df = wr.s3.read_parquet("s3://bucket/dataset/", dataset=True)# Recuperando los datos de Amazon Athenadf = wr.athena.read_sql_query("SELECT * FROM my_table", base de datos="my_db")# Obtener una conexión Redshift desde Glue Catalog y recuperar datos de Redshift Spectrumcon = wr.redshift.connect("my-glue-connection")df = wr.redshift.read_sql_query("SELECT * FROM external_schema.my_table", con=con)con.close()# Amazon Timestream Writedf = pd.DataFrame({ "hora": [datetime.now(), datetime.now()], "my_dimension": ["foo", "boo"],"medida": [1.0, 1.1], })rejected_records = wr.timestream.write(df,database="sampleDB",table="sampleTable",time_col="time",measure_col="medida",dimensions_cols=["mi_dimensión"], )# Amazon Timestream Querywr.timestream.query("""SELECCIONAR tiempo, valor_medida::doble, my_dimensionFROM "sampleDB"."sampleTable" ORDENAR POR tiempo DESC LIMIT 3""")
AWS SDK para pandas también puede ejecutar sus flujos de trabajo a escala aprovechando Modin y Ray. Ambos proyectos tienen como objetivo acelerar las cargas de trabajo de datos distribuyendo el procesamiento entre un grupo de trabajadores.
Lea nuestros documentos o diríjase a nuestros últimos tutoriales para obtener más información.
️ Ray no está disponible actualmente para Python 3.12. Si bien AWS SDK para pandas es compatible con Python 3.12, no se puede utilizar a escala.
¿Qué es AWS SDK para pandas?
Instalar
PyPi (pipo)
conda
Capa AWS Lambda
Trabajos de shell de Python de AWS Glue
Empleos de AWS Glue PySpark
Cuaderno Amazon SageMaker
Ciclo de vida del cuaderno de Amazon SageMaker
EMR
De la fuente
A escala
Empezando
API compatibles
Recursos
Tutoriales
001 - Introducción
002 - Sesiones
003-Amazon S3
004 - Conjuntos de datos de parquet
005 - Catálogo de colas
006 - Atenea amazona
007 - Bases de datos (Redshift, MySQL, PostgreSQL, SQL Server y Oracle)
008 - Desplazamiento al rojo - Copiar y descargar.ipynb
009 - Desplazamiento al rojo - Agregar, sobrescribir y insertar
010 - Arrastrador de parquet
011 - Conjuntos de datos CSV
012 - Rastreador CSV
013 - Fusionar conjuntos de datos en S3
014 - Evolución del esquema
015 - RME
016 - EMR y Docker
017 - Proyección de partición
018 - Vista Rápida
019 - Caché de Atenas
020 - Interoperabilidad de la tabla Spark
021 - Configuraciones Globales
022 - Escribir particiones simultáneamente
023 - Filtro de particiones flexibles
024 - Metadatos de consulta de Athena
025 - Redshift - Cargando archivos Parquet con Spectrum
026 - Corriente temporal de Amazon
027 - Corriente temporal de Amazon 2
028-Amazon DynamoDB
029 - Selección S3
030 - API de datos
031 - Búsqueda abierta
033 - Amazonas Neptuno
034 - Distribución de llamadas usando Ray
035 - Distribución de llamadas en Ray Remote Cluster
037 - Calidad de datos de pegamento
038 - OpenSearch sin servidor
039 - Atenea Iceberg
040 - EMR sin servidor
041 - Apache Spark en Amazon Athena
Referencia de API
amazon s3
Catálogo de pegamento AWS
Atenea amazónica
Desplazamiento al rojo del Amazonas
PostgreSQL
mysql
Servidor SQL
Oráculo
Desplazamiento al rojo de la API de datos
API de datos RDS
Búsqueda abierta
Calidad de datos de AWS Glue
Amazonas Neptuno
DinamoDB
Amazon Timestream
EMR de Amazon
Registros de Amazon CloudWatch
timbre amazónico
Amazon QuickSight
AWS STS
Administrador de secretos de AWS
Configuraciones globales
Distribuido - Rayo
Licencia
Contribuyendo
La mejor manera de interactuar con nuestro equipo es a través de GitHub. Puede abrir un problema y elegir entre una de nuestras plantillas para informes de errores, solicitudes de funciones... También puede encontrar ayuda en estos recursos de la comunidad:
El canal de Slack #aws-sdk-pandas
Haga una pregunta en Stack Overflow y etiquétela con awswrangler
Runbook para AWS SDK para pandas con Ray
Habilitación de ejemplos de registro interno:
importar logginglogging.basicConfig(level=logging.INFO, format="[%(name)s][%(funcName)s] %(message)s")logging.getLogger("awswrangler").setLevel(logging.DEBUG) logging.getLogger("botocore.credentials").setLevel(logging.CRÍTICO)
En AWS lambda:
importar logginglogging.getLogger("awswrangler").setLevel(logging.DEBUG)