แพนด้าบน AWS
บูรณาการอย่างง่ายดายกับ Athena, Glue, Redshift, Timestream, OpenSearch, Neptune, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer และ S3 (Parquet, CSV, JSON และ EXCEL)
โครงการริเริ่มโอเพ่นซอร์สของ AWS Professional Service | [email protected]
แหล่งที่มา | ดาวน์โหลด | คำสั่งการติดตั้ง |
---|---|---|
ปิ๊ปิ | pip install awswrangler | |
คอนดา | conda install -c conda-forge awswrangler |
ตั้งแต่เวอร์ชัน 3.0 เป็นต้นไป จะต้องติดตั้งโมดูลเสริมอย่างชัดเจน:
➡️pip install 'awswrangler[redshift]'
เริ่มต้นอย่างรวดเร็ว
ที่ขนาด
อ่านเอกสาร
การขอความช่วยเหลือ
การบันทึก
คำสั่งการติดตั้ง: pip install awswrangler
ตั้งแต่เวอร์ชัน 3.0 เป็นต้นไป จะต้องติดตั้งโมดูลเสริมอย่างชัดเจน:
➡️pip install 'awswrangler[redshift]'
นำเข้า awswrangler เป็น wrimport pandas เป็น pdfrom datetime import datetimedf = pd.DataFrame({"id": [1, 2], "value": ["foo", "boo"]})# การจัดเก็บข้อมูลในข้อมูล Lakewr.s3.to_parquet(df=df,path="s3://bucket/dataset/",dataset=True,database="my_db",table="my_table")# การดึงข้อมูลโดยตรงจาก Amazon S3df = wr. s3.read_parquet("s3://bucket/dataset/", dataset=True)# การดึงข้อมูลจาก Amazon Athenadf = wr.athena.read_sql_query("SELECT * FROM my_table", Database="my_db")# รับการเชื่อมต่อ Redshift จาก Glue Catalog และดึงข้อมูลจาก Redshift Spectrumcon = wr.redshift.connect("my-glue-connection")df = wr.redshift.read_sql_query("SELECT * FROM external_schema.my_table", con=con)con.close()# Amazon Timestream Writedf = pd.DataFrame({"time": [datetime.now(), datetime.now()], "my_size": ["foo", "boo"],"measure": [1.0, 1.1], })rejected_records = wr.timestream.write(df,database="sampleDB",table="sampleTable",time_col="time",measure_col="measure", dimensions_cols=["my_ dimensions"], )# Amazon Timestream Querywr.timestream.query("""SELECT time, Measure_value::double, my_ dimensionsFROM "sampleDB"."sampleTable" เรียงตามเวลา DESC LIMIT 3""")
AWS SDK สำหรับ pandas ยังสามารถเรียกใช้เวิร์กโฟลว์ของคุณได้ในวงกว้างโดยใช้ประโยชน์จาก Modin และ Ray ทั้งสองโครงการมีเป้าหมายเพื่อเพิ่มความเร็วปริมาณงานข้อมูลโดยการกระจายการประมวลผลไปยังกลุ่มคนงาน
อ่านเอกสารของเราหรือไปที่บทช่วยสอนล่าสุดเพื่อเรียนรู้เพิ่มเติม
ขณะนี้ Ray ไม่สามารถใช้งานได้กับ Python 3.12 แม้ว่า AWS SDK สำหรับ pandas จะรองรับ Python 3.12 แต่ก็ไม่สามารถใช้งานได้ในวงกว้าง
AWS SDK สำหรับแพนด้าคืออะไร
ติดตั้ง
PyPi (ปิ๊ป)
คอนดา
เลเยอร์ AWS แลมบ์ดา
งาน AWS Glue Python Shell
งาน AWS Glue PySpark
สมุดบันทึก Amazon SageMaker
วงจรการใช้งานโน้ตบุ๊ค Amazon SageMaker
อีเอ็มอาร์
จากแหล่งที่มา
ในระดับ
เริ่มต้นใช้งาน
API ที่รองรับ
ทรัพยากร
บทช่วยสอน
001 - บทนำ
002 - เซสชัน
003 - อเมซอน S3
004 - ชุดข้อมูลไม้ปาร์เก้
005 - แคตตาล็อกกาว
006 - อเมซอน อาเธน่า
007 - ฐานข้อมูล (Redshift, MySQL, PostgreSQL, SQL Server และ Oracle)
008 - Redshift - คัดลอก & Unload.ipynb
009 - Redshift - ผนวก เขียนทับ และอัปโหลด
010 - ไม้ปาร์เก้ตีนตะขาบ
011 - ชุดข้อมูล CSV
012 - โปรแกรมรวบรวมข้อมูล CSV
013 - การรวมชุดข้อมูลบน S3
014 - วิวัฒนาการสคีมา
015 - อีเอ็มอาร์
016 - EMR และนักเทียบท่า
017 - การฉายฉากกั้น
018 - ควิกไซท์
019 - แคชอาธีน่า
020 - การทำงานร่วมกันของ Spark Table
021 - การกำหนดค่าส่วนกลาง
022 - การเขียนพาร์ติชั่นพร้อมกัน
023 - ตัวกรองพาร์ติชันที่ยืดหยุ่น
024 - ข้อมูลเมตาแบบสอบถาม Athena
025 - Redshift - กำลังโหลดไฟล์ Parquet ด้วย Spectrum
026 - ไทม์สตรีมของอเมซอน
027 - อเมซอน ไทม์สตรีม 2
028 - อเมซอน DynamoDB
029 - S3 เลือก
030 - ข้อมูล API
031 - เปิดการค้นหา
033 - อเมซอน ดาวเนปจูน
034 - การกระจายสายโดยใช้เรย์
035 - การกระจายการโทรบนคลัสเตอร์เรย์ระยะไกล
037 - คุณภาพข้อมูลกาว
038 - OpenSearch ไร้เซิร์ฟเวอร์
039 - ภูเขาน้ำแข็งอาธีน่า
040 - EMR ไร้เซิร์ฟเวอร์
041 - Apache Spark บน Amazon Athena
การอ้างอิง API
อเมซอน S3
แค็ตตาล็อกกาว AWS
อเมซอน อาเธน่า
อเมซอน เรดชิฟต์
PostgreSQL
MySQL
เซิร์ฟเวอร์ SQL
ออราเคิล
ข้อมูล API Redshift
ข้อมูล API RDS
เปิดการค้นหา
คุณภาพข้อมูล AWS Glue
อเมซอน ดาวเนปจูน
ไดนาโมดีบี
อเมซอน ไทม์สตรีม
อเมซอน EMR
บันทึก Amazon CloudWatch
อเมซอน ระฆัง
อเมซอน QuickSight
AWS STS
ตัวจัดการความลับ AWS
การกำหนดค่าทั่วโลก
จัดจำหน่าย - เรย์
ใบอนุญาต
มีส่วนร่วม
วิธีที่ดีที่สุดในการโต้ตอบกับทีมของเราคือผ่าน GitHub คุณสามารถเปิดปัญหาและเลือกจากเทมเพลตของเราสำหรับรายงานข้อบกพร่อง คำขอคุณสมบัติ... คุณยังอาจพบความช่วยเหลือในแหล่งข้อมูลชุมชนเหล่านี้:
ช่อง #aws-sdk-pandas Slack
ถามคำถามเกี่ยวกับ Stack Overflow และแท็กด้วย awswrangler
Runbook สำหรับ AWS SDK สำหรับแพนด้ากับ Ray
การเปิดใช้งานตัวอย่างการบันทึกภายใน:
นำเข้า logginglogging.basicConfig(level=logging.INFO, format="[%(name)s][%(funcName)s] %(message)s")logging.getLogger("awswrangler").setLevel(logging.DEBUG) logging.getLogger("botocore.credentials").setLevel(logging.สำคัญ)
เข้าสู่แลมบ์ดา AWS:
นำเข้า logginglogging.getLogger("awswrangler").setLevel(logging.DEBUG)