Panda di AWS
Integrasi yang mudah dengan Athena, Glue, Redshift, Timestream, OpenSearch, Neptune, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer dan S3 (Parquet, CSV, JSON dan EXCEL).
Inisiatif sumber terbuka Layanan Profesional AWS | [email protected]
Sumber | Unduhan | Perintah Instalasi |
---|---|---|
PyPi | pip install awswrangler | |
Konda | conda install -c conda-forge awswrangler |
️ Mulai versi 3.0, modul opsional harus diinstal secara eksplisit:
➡️pip install 'awswrangler[redshift]'
Mulai Cepat
Dalam Skala Besar
Baca Dokumen
Mendapatkan Bantuan
Pencatatan
Perintah instalasi: pip install awswrangler
️ Mulai versi 3.0, modul opsional harus diinstal secara eksplisit:
➡️pip install 'awswrangler[redshift]'
import awswrangler as wrimport pandas as pdfrom datetime import datetimedf = pd.DataFrame({"id": [1, 2], "value": ["foo", "boo"]})# Menyimpan data di Data Lakewr.s3. to_parquet(df=df,path="s3://bucket/dataset/",dataset=True,database="my_db",table="my_table")# Mengambil data langsung dari Amazon S3df = wr.s3.read_parquet("s3://bucket/dataset/", dataset=True)# Mengambil data dari Amazon Athenadf = wr.athena.read_sql_query("SELECT * FROM my_table", database="my_db")# Dapatkan koneksi Redshift dari Katalog Lem dan mengambil data dari Redshift Spectrumcon = wr.redshift.connect("koneksi-lem-saya")df = wr.redshift.read_sql_query("PILIH * FROM external_schema.my_table", con=con)con.close()# Amazon Timestream Writedf = pd.DataFrame({ "waktu": [datetime.now(), datetime.now()], "dimensi_saya": ["foo", "boo"],"measure": [1.0, 1.1], })rejected_records = wr.timestream.write(df,database="sampleDB",table="sampleTable",time_col="time",measure_col="measure",dimensions_cols=["dimensi_saya"], )# Amazon Timestream Querywr.timestream.query("""PILIH waktu, ukur_nilai::ganda, my_dimensionFROM "sampleDB"."sampleTable" ORDER BY time DESC LIMIT 3""")
AWS SDK for pandas juga dapat menjalankan alur kerja Anda dalam skala besar dengan memanfaatkan Modin dan Ray. Kedua proyek tersebut bertujuan untuk mempercepat beban kerja data dengan mendistribusikan pemrosesan ke sekelompok pekerja.
Baca dokumen kami atau buka tutorial terbaru kami untuk mempelajari lebih lanjut.
️ Ray saat ini tidak tersedia untuk Python 3.12. Meskipun AWS SDK for pandas mendukung Python 3.12, ia tidak dapat digunakan dalam skala besar.
Apa itu AWS SDK untuk panda?
Memasang
PyPi (pip)
Konda
Lapisan AWS Lambda
Pekerjaan Shell Python AWS Glue
Pekerjaan PySpark AWS Glue
Buku Catatan Amazon SageMaker
Siklus Hidup Notebook Amazon SageMaker
ESDM
Dari sumber
Dalam skala besar
Memulai
API yang didukung
Sumber daya
Tutorial
001 - Pendahuluan
002 - Sesi
003 - Amazon S3
004 - Kumpulan Data Parket
005 - Katalog Lem
006 -Amazon Athena
007 - Basis Data (Redshift, MySQL, PostgreSQL, SQL Server dan Oracle)
008 - Pergeseran Merah - Salin & Bongkar.ipynb
009 - Pergeseran Merah - Tambahkan, Timpa, dan Sisipkan
010 - Perayap Parket
011 - Kumpulan Data CSV
012 - Perayap CSV
013 - Menggabungkan Kumpulan Data di S3
014 - Evolusi Skema
015 - ESDM
016 - ESDM & buruh pelabuhan
017 - Proyeksi Partisi
018 - Penglihatan Cepat
019 - Tembolok Athena
020 - Interoperabilitas Tabel Spark
021 - Konfigurasi Global
022 - Menulis Partisi Secara Bersamaan
023 - Filter Partisi Fleksibel
024 - Metadata Kueri Athena
025 - Redshift - Memuat file Parket dengan Spectrum
026 - Aliran Waktu Amazon
027 - Aliran Waktu Amazon 2
028 - Amazon DynamoDB
029 - S3 Pilih
030 - Data Api
031 - Pencarian Terbuka
033 - Amazon Neptunus
034 - Mendistribusikan Panggilan Menggunakan Ray
035 - Mendistribusikan Panggilan pada Ray Remote Cluster
037 - Kualitas Data Lem
038 - OpenSearch Tanpa Server
039 - Gunung Es Athena
040 - EMR Tanpa Server
041 - Apache Spark di Amazon Athena
Referensi API
Amazon S3
Katalog AWS Glue
Amazon Athena
Pergeseran Merah Amazon
PostgreSQL
MySQL
SQLServer
Peramal
Pergeseran Merah API Data
API Data RDS
Pencarian Terbuka
Kualitas Data AWS Glue
Amazon Neptunus
DynamoDB
Aliran Waktu Amazon
Amazon ESDM
Log Amazon CloudWatch
Amazon berpadu
Amazon QuickSight
AWS STS
Manajer Rahasia AWS
Konfigurasi Global
Didistribusikan - Sinar
Lisensi
Berkontribusi
Cara terbaik untuk berinteraksi dengan tim kami adalah melalui GitHub. Anda dapat membuka masalah dan memilih salah satu templat kami untuk laporan bug, permintaan fitur... Anda juga dapat menemukan bantuan di sumber daya komunitas berikut:
Saluran #aws-sdk-pandas Slack
Ajukan pertanyaan tentang Stack Overflow dan beri tag dengan awswrangler
Runbook untuk AWS SDK untuk panda dengan Ray
Mengaktifkan contoh logging internal:
impor logginglogging.basicConfig(level=logging.INFO, format="[%(name)s][%(funcName)s] %(message)s")logging.getLogger("awswrangler").setLevel(logging.DEBUG) logging.getLogger("botocore.credentials").setLevel(logging.KRITIS)
Ke dalam lambda AWS:
impor logginglogging.getLogger("awswrangler").setLevel(logging.DEBUG)