Pandas sur AWS
Intégration facile avec Athena, Glue, Redshift, Timestream, OpenSearch, Neptune, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer et S3 (Parquet, CSV, JSON et EXCEL).
Une initiative open source AWS Professional Service | [email protected]
Source | Téléchargements | Commande d'installation |
---|---|---|
PyPi | pip install awswrangler | |
Conda | conda install -c conda-forge awswrangler |
️ À partir de la version 3.0, les modules optionnels doivent être installés explicitement :
➡️pip install 'awswrangler[redshift]'
Démarrage rapide
À grande échelle
Lire les documents
Obtenir de l'aide
Enregistrement
Commande d'installation : pip install awswrangler
️ À partir de la version 3.0, les modules optionnels doivent être installés explicitement :
➡️pip install 'awswrangler[redshift]'
importer awswrangler as wrimport pandas as pdfrom datetime import datetimedf = pd.DataFrame({"id": [1, 2], "value": ["foo", "boo"]})# Stockage des données sur Data Lakewr.s3. to_parquet(df=df,path="s3://bucket/dataset/",dataset=True,database="my_db",table="my_table")# Récupération du données directement depuis Amazon S3df = wr.s3.read_parquet("s3://bucket/dataset/", dataset=True)# Récupération des données depuis Amazon Athenadf = wr.athena.read_sql_query("SELECT * FROM my_table", database= "my_db")# Obtenez une connexion Redshift à partir de Glue Catalog et récupérez les données de Redshift Spectrumcon = wr.redshift.connect("my-glue-connection")df = wr.redshift.read_sql_query("SELECT * FROM external_schema.my_table", con=con)con.close()# Amazon Timestream Writedf = pd.DataFrame({"time": [datetime.now(), datetime.now( )], "my_dimension": ["foo", "boo"],"measure": [1.0, 1.1], })rejected_records = wr.timestream.write(df,database="sampleDB",table="sampleTable",time_col="time",measure_col="measure",dimensions_cols=["my_dimension"], )# Amazon Timestream Querywr.timestream.query("""SELECT time, Measure_value::double, my_dimensionFROM "sampleDB"."sampleTable" ORDER BY time DESC LIMIT 3""")
Le SDK AWS pour pandas peut également exécuter vos flux de travail à grande échelle en tirant parti de Modin et Ray. Les deux projets visent à accélérer les charges de travail de données en répartissant le traitement sur un cluster de travailleurs.
Lisez nos documents ou consultez nos derniers didacticiels pour en savoir plus.
️ Ray n'est actuellement pas disponible pour Python 3.12. Bien qu'AWS SDK pour pandas prenne en charge Python 3.12, il ne peut pas être utilisé à grande échelle.
Qu'est-ce que le SDK AWS pour les pandas ?
Installer
PyPi (pépin)
Conda
Couche AWS Lambda
Tâches AWS Glue Python Shell
Emplois AWS Glue PySpark
Carnet Amazon SageMaker
Cycle de vie des ordinateurs portables Amazon SageMaker
DME
De la source
À grande échelle
Commencer
API prises en charge
Ressources
Tutoriels
001 - Introduction
002 - Séances
003 - Amazon S3
004 - Ensembles de données sur les parquets
005 - Catalogue Colles
006 - Amazone Athéna
007 - Bases de données (Redshift, MySQL, PostgreSQL, SQL Server et Oracle)
008 - Redshift - Copier et décharger.ipynb
009 - Redshift - Ajouter, écraser et insérer
010 - Chenille pour parquet
011 - Ensembles de données CSV
012 - Robot d'exploration CSV
013 - Fusion d'ensembles de données sur S3
014 - Évolution du schéma
015 - DME
016 - DME et Docker
017 - Projection de cloisons
018 - Vue rapide
019 - Cache Athéna
020 - Interopérabilité des tables Spark
021 - Configurations globales
022 - Écriture simultanée de partitions
023 - Filtre de partitions flexibles
024 - Métadonnées de requête Athena
025 - Redshift - Chargement de fichiers Parquet avec Spectrum
026 - Flux temporel d'Amazon
027 - Amazon Timestream 2
028-Amazon DynamoDB
029 - S3 Sélection
030 - API de données
031 - Recherche Ouverte
033 - Amazone Neptune
034 - Distribution d'appels à l'aide de Ray
035 - Distribution des appels sur le cluster distant Ray
037 - Qualité des données de colle
038 - OpenSearch sans serveur
039 - Iceberg d'Athéna
040 - DME sans serveur
041 - Apache Spark sur Amazon Athena
Référence API
Amazone S3
Catalogue de colle AWS
Amazone Athéna
Amazon Redshift
PostgreSQL
MySQL
Serveur SQL
Oracle
API de données Redshift
API de données RDS
Recherche ouverte
Qualité des données AWS Glue
Amazone Neptune
DynamoDB
Flux temporel Amazon
Amazon DME
Journaux Amazon CloudWatch
Carillon Amazone
Amazon QuickSight
AWSSTS
Gestionnaire de secrets AWS
Configurations globales
Distribué - Ray
Licence
Contribuer
La meilleure façon d'interagir avec notre équipe est via GitHub. Vous pouvez ouvrir un ticket et choisir parmi l'un de nos modèles de rapports de bugs, de demandes de fonctionnalités... Vous pouvez également trouver de l'aide sur ces ressources communautaires :
La chaîne Slack #aws-sdk-pandas
Posez une question sur Stack Overflow et marquez-la avec awswrangler
Runbook pour AWS SDK pour pandas avec Ray
Activation des exemples de journalisation interne :
import logginglogging.basicConfig(level=logging.INFO, format="[%(name)s][%(funcName)s] %(message)s")logging.getLogger("awswrangler").setLevel(logging.DEBUG) logging.getLogger("botocore.credentials").setLevel(logging.CRITICAL)
Dans AWS lambda :
importer logginglogging.getLogger("awswrangler").setLevel(logging.DEBUG)