aws sdk pandas Télécharger - aws sdk pandas Téléchargement du code source

aws sdk pandas

Python

3.10.1

Télécharger

Kit SDK AWS pour pandas (awswrangler)

Pandas sur AWS

Intégration facile avec Athena, Glue, Redshift, Timestream, OpenSearch, Neptune, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer et S3 (Parquet, CSV, JSON et EXCEL).

AWS SDK for pandas

Une initiative open source AWS Professional Service | [email protected]

Source	Téléchargements	Commande d'installation
PyPi		`pip install awswrangler`
Conda		`conda install -c conda-forge awswrangler`

️ À partir de la version 3.0, les modules optionnels doivent être installés explicitement :
➡️ pip install 'awswrangler[redshift]'

Table des matières

Démarrage rapide
À grande échelle
Lire les documents
Obtenir de l'aide
Enregistrement

Démarrage rapide

Commande d'installation : pip install awswrangler

️ À partir de la version 3.0, les modules optionnels doivent être installés explicitement :
➡️ pip install 'awswrangler[redshift]'

 importer awswrangler as wrimport pandas as pdfrom datetime import datetimedf = pd.DataFrame({"id": [1, 2], "value": ["foo", "boo"]})# Stockage des données sur Data Lakewr.s3. to_parquet(df=df,path="s3://bucket/dataset/",dataset=True,database="my_db",table="my_table")# Récupération du données directement depuis Amazon S3df = wr.s3.read_parquet("s3://bucket/dataset/", dataset=True)# Récupération des données depuis Amazon Athenadf = wr.athena.read_sql_query("SELECT * FROM my_table", database= "my_db")# Obtenez une connexion Redshift à partir de Glue Catalog et récupérez les données de Redshift Spectrumcon = wr.redshift.connect("my-glue-connection")df = wr.redshift.read_sql_query("SELECT * FROM external_schema.my_table", con=con)con.close()# Amazon Timestream Writedf = pd.DataFrame({"time": [datetime.now(), datetime.now( )], "my_dimension": ["foo", "boo"],"measure": [1.0, 1.1],
})rejected_records = wr.timestream.write(df,database="sampleDB",table="sampleTable",time_col="time",measure_col="measure",dimensions_cols=["my_dimension"],
)# Amazon Timestream Querywr.timestream.query("""SELECT time, Measure_value::double, my_dimensionFROM "sampleDB"."sampleTable" ORDER BY time DESC LIMIT 3""")

À grande échelle

Le SDK AWS pour pandas peut également exécuter vos flux de travail à grande échelle en tirant parti de Modin et Ray. Les deux projets visent à accélérer les charges de travail de données en répartissant le traitement sur un cluster de travailleurs.

Lisez nos documents ou consultez nos derniers didacticiels pour en savoir plus.

️ Ray n'est actuellement pas disponible pour Python 3.12. Bien qu'AWS SDK pour pandas prenne en charge Python 3.12, il ne peut pas être utilisé à grande échelle.

Lire les documents

Qu'est-ce que le SDK AWS pour les pandas ?
Installer

PyPi (pépin)
Conda
Couche AWS Lambda
Tâches AWS Glue Python Shell
Emplois AWS Glue PySpark
Carnet Amazon SageMaker
Cycle de vie des ordinateurs portables Amazon SageMaker
DME
De la source

À grande échelle

Commencer
API prises en charge
Ressources

Tutoriels

001 - Introduction
002 - Séances
003 - Amazon S3
004 - Ensembles de données sur les parquets
005 - Catalogue Colles
006 - Amazone Athéna
007 - Bases de données (Redshift, MySQL, PostgreSQL, SQL Server et Oracle)
008 - Redshift - Copier et décharger.ipynb
009 - Redshift - Ajouter, écraser et insérer
010 - Chenille pour parquet
011 - Ensembles de données CSV
012 - Robot d'exploration CSV
013 - Fusion d'ensembles de données sur S3
014 - Évolution du schéma
015 - DME
016 - DME et Docker
017 - Projection de cloisons
018 - Vue rapide
019 - Cache Athéna
020 - Interopérabilité des tables Spark
021 - Configurations globales
022 - Écriture simultanée de partitions
023 - Filtre de partitions flexibles
024 - Métadonnées de requête Athena
025 - Redshift - Chargement de fichiers Parquet avec Spectrum
026 - Flux temporel d'Amazon
027 - Amazon Timestream 2
028-Amazon DynamoDB
029 - S3 Sélection
030 - API de données
031 - Recherche Ouverte
033 - Amazone Neptune
034 - Distribution d'appels à l'aide de Ray
035 - Distribution des appels sur le cluster distant Ray
037 - Qualité des données de colle
038 - OpenSearch sans serveur
039 - Iceberg d'Athéna
040 - DME sans serveur
041 - Apache Spark sur Amazon Athena

Référence API

Amazone S3
Catalogue de colle AWS
Amazone Athéna
Amazon Redshift
PostgreSQL
MySQL
Serveur SQL
Oracle
API de données Redshift
API de données RDS
Recherche ouverte
Qualité des données AWS Glue
Amazone Neptune
DynamoDB
Flux temporel Amazon
Amazon DME
Journaux Amazon CloudWatch
Carillon Amazone
Amazon QuickSight
AWSSTS
Gestionnaire de secrets AWS
Configurations globales
Distribué - Ray

Licence
Contribuer

Obtenir de l'aide

La meilleure façon d'interagir avec notre équipe est via GitHub. Vous pouvez ouvrir un ticket et choisir parmi l'un de nos modèles de rapports de bugs, de demandes de fonctionnalités... Vous pouvez également trouver de l'aide sur ces ressources communautaires :

La chaîne Slack #aws-sdk-pandas
Posez une question sur Stack Overflow et marquez-la avec awswrangler
Runbook pour AWS SDK pour pandas avec Ray

Enregistrement

Activation des exemples de journalisation interne :

 import logginglogging.basicConfig(level=logging.INFO, format="[%(name)s][%(funcName)s] %(message)s")logging.getLogger("awswrangler").setLevel(logging.DEBUG) logging.getLogger("botocore.credentials").setLevel(logging.CRITICAL)

Dans AWS lambda :

 importer logginglogging.getLogger("awswrangler").setLevel(logging.DEBUG)

Développer

Informations supplémentaires

Version 3.10.1
Type Python
Date de mise à jour 2025-01-02
taille 2.19MB
Provenant de Github

Applications connexes

azure sdk for js

2024-11-10
Azure Kinect Sensor SDK

2024-11-10
onedrive sdk python

2024-11-05
ailia sdk

2024-11-04
Bébé Pandas Town Life version chinoise

2024-05-29
Panda Care Pandas Life World version mobile

2024-02-17

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Nuitka

Python

1.0.0
Google Blog Converters (convertisseur de données de blog)

Python

1.0 R54
azure storage python

Python

v2.1.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout