AWS 上的熊貓
與 Athena、Glue、Redshift、Timestream、OpenSearch、Neptune、QuickSight、Chime、CloudWatchLogs、DynamoDB、EMR、SecretManager、PostgreSQL、MySQL、SQLServer 和 S3(Parquet、CSV、JSON 和 EXCEL)輕鬆整合。
AWS 專業服務開源方案 | [email protected]
來源 | 下載 | 安裝命令 |
---|---|---|
皮皮 | pip install awswrangler | |
康達 | conda install -c conda-forge awswrangler |
️ 從版本 3.0 開始,必須明確安裝選用模組:
➡️pip install 'awswrangler[redshift]'
快速入門
規模化
閱讀文件
尋求協助
記錄
安裝指令: pip install awswrangler
️ 從版本 3.0 開始,必須明確安裝選用模組:
➡️pip install 'awswrangler[redshift]'
import awswrangler as wrimport pandas as pdfrom datetime import datetimedf = pd.DataFrame({"id": [1, 2], "value": ["foo", "boo"]})# 在Data Lakewr.s3 上儲存資料。 "s3://bucket/dataset/", dataset=True)# 從Amazon 檢索資料Athenadf = wr.athena.read_sql_query("SELECT * FROM my_table", database="my_db")# 從Glue Catalog 取得Redshift 連接並從Redshift Spectrumcon = wr.redshift.connect("my-glue-connection")df = wr.redshift.read_sql_query("SELECT * FROM external_schema.my_table", con=con)con.close()# Amazon Timestream 擷取資料Writedf = pd.DataFrame({"time": [datetime.now(), datetime.now()], "my_dimension": ["foo", "boo"],"measure": [1.0, 1.1], })rejected_records = wr.timestream.write(df,database="sampleDB",table="sampleTable",time_col="time",measure_col="measure",dimensions_cols=["my_dimension"], )# Amazon Timestream Querywr.timestream.query("""SELECT time,measure_value::double, my_dimensionFROM "sampleDB"."sampleTable" ORDER BY time DESC LIMIT 3""")
適用於 pandas 的 AWS 開發工具包還可以利用 Modin 和 Ray 大規模運行您的工作流程。這兩個專案都旨在透過將處理分配給一組工作人員來加速資料工作負載。
閱讀我們的文件或前往我們的最新教程以了解更多資訊。
️ Ray 目前不適用於 Python 3.12。雖然適用於 pandas 的 AWS 開發工具包支援 Python 3.12,但它無法大規模使用。
什麼是適用於 pandas 的 AWS 開發工具包?
安裝
PyPi(點)
康達
AWS Lambda 層
AWS Glue Python Shell 作業
AWS Glue PySpark 職位
亞馬遜 SageMaker 筆記本
Amazon SageMaker 筆電生命週期
電子病歷
從源頭
規模化
入門
支援的API
資源
教學
001 - 簡介
002 - 會議
003 - 亞馬遜 S3
004 - Parquet 資料集
005 - 膠水目錄
006 - 亞馬遜雅典娜
007 - 資料庫(Redshift、MySQL、PostgreSQL、SQL Server 和 Oracle)
008 - Redshift - 複製和卸載.ipynb
009 - Redshift - 追加、覆蓋和更新插入
010 - 鑲木地板爬行者
011 - CSV 資料集
012 - CSV 爬蟲
013 - 合併 S3 上的資料集
014 - 架構演變
015 - 電子病歷
016 - EMR 和 Docker
017 - 分區投影
018 - 快速視線
019 - 雅典娜緩存
020 - Spark 表互通性
021 - 全域配置
022 - 並發寫入分區
023 - 靈活分區過濾器
024 - Athena 查詢元數據
025 - Redshift - 使用 Spectrum 載入 Parquet 文件
026 - 亞馬遜時間流
027 - 亞馬遜時間流 2
028 - 亞馬遜DynamoDB
029 - S3 選擇
030 - 資料API
031 - 開放搜尋
033 - 亞馬遜海王星
034 - 使用 Ray 分配呼叫
035 - 在 Ray 遠端叢集上分配調用
037 - 黏合數據質量
038 - OpenSearch 無伺服器
039 - 雅典娜冰山
040 - EMR 無伺服器
041 - Amazon Athena 上的 Apache Spark
API參考
亞馬遜S3
AWS Glue 目錄
亞馬遜雅典娜
亞馬遜紅移
PostgreSQL
MySQL
SQL伺服器
甲骨文
資料 API 紅移
資料API RDS
開放搜尋
AWS Glue 資料質量
亞馬遜海王星
動態資料庫
亞馬遜時間流
亞馬遜電子病歷
亞馬遜 CloudWatch 日誌
亞馬遜鐘聲
亞馬遜 QuickSight
AWS STS
AWS 秘密管理器
全域配置
分佈式-雷
執照
貢獻
與我們團隊互動的最佳方式是透過 GitHub。您可以開啟問題並從我們的錯誤報告、功能請求範本中進行選擇...您也可以在這些社群資源上找到協助:
#aws-sdk-pandas Slack 頻道
在 Stack Overflow 上提問並使用awswrangler
標記它
適用於帶有 Ray 的 pandas 的 AWS 開發工具包的運作手冊
啟用內部日誌記錄範例:
導入logginglogging.basicConfig(level=logging.INFO, format="[%(name)s][%(funcName)s] %(message)s")logging.getLogger("awswrangler").setLevel(logging.DEBUG) logging.getLogger("botocore.credentials").setLevel(logging.CRITICAL)
進入AWS lambda:
導入logginglogging.getLogger(“awswrangler”).setLevel(logging.DEBUG)