AWS 上的熊猫
与 Athena、Glue、Redshift、Timestream、OpenSearch、Neptune、QuickSight、Chime、CloudWatchLogs、DynamoDB、EMR、SecretManager、PostgreSQL、MySQL、SQLServer 和 S3(Parquet、CSV、JSON 和 EXCEL)轻松集成。
AWS 专业服务开源计划 | [email protected]
来源 | 下载 | 安装命令 |
---|---|---|
皮皮 | pip install awswrangler | |
康达 | conda install -c conda-forge awswrangler |
️ 从版本 3.0 开始,必须显式安装可选模块:
➡️pip install 'awswrangler[redshift]'
快速入门
规模化
阅读文档
寻求帮助
记录
安装命令: pip install awswrangler
️ 从版本 3.0 开始,必须显式安装可选模块:
➡️pip install 'awswrangler[redshift]'
import awswrangler as wrimport pandas as pdfrom datetime import datetimedf = pd.DataFrame({"id": [1, 2], "value": ["foo", "boo"]})# 在 Data 上存储数据Lakewr.s3.to_parquet(df=df,path="s3://bucket/dataset/",dataset=True,database="my_db",table="my_table")# 直接从 Amazon 检索数据 S3df = wr. s3.read_parquet("s3://bucket/dataset/", dataset=True)# 从 Amazon Athenadf = 检索数据wr.athena.read_sql_query("SELECT * FROM my_table", database="my_db")# 从 Glue Catalog 获取 Redshift 连接并从 Redshift Spectrumcon = wr.redshift.connect("my-glue-connection")df = wr.redshift.read_sql_query("SELECT * FROM external_schema.my_table", con=con)con.close()# Amazon Timestream Writedf = pd.DataFrame({"time": [datetime.now(), datetime.now()], "my_dimension": ["foo", "boo"],"measure": [1.0, 1.1], })rejected_records = wr.timestream.write(df,database="sampleDB",table="sampleTable",time_col="time",measure_col="measure",dimensions_cols=["my_dimension"], )# Amazon Timestream Querywr.timestream.query("""SELECT time,measure_value::double, my_dimensionFROM "sampleDB"."sampleTable" ORDER BY time DESC LIMIT 3""")
适用于 pandas 的 AWS 开发工具包还可以利用 Modin 和 Ray 大规模运行您的工作流程。这两个项目都旨在通过将处理分配给一组工作人员来加速数据工作负载。
阅读我们的文档或前往我们的最新教程以了解更多信息。
️ Ray 目前不适用于 Python 3.12。虽然适用于 pandas 的 AWS 开发工具包支持 Python 3.12,但它无法大规模使用。
什么是适用于 pandas 的 AWS 开发工具包?
安装
PyPi(点)
康达
AWS Lambda 层
AWS Glue Python Shell 作业
AWS Glue PySpark 职位
亚马逊 SageMaker 笔记本
Amazon SageMaker 笔记本生命周期
电子病历
从源头
规模化
入门
支持的API
资源
教程
001 - 简介
002 - 会议
003 - 亚马逊 S3
004 - Parquet 数据集
005 - 胶水目录
006 - 亚马逊雅典娜
007 - 数据库(Redshift、MySQL、PostgreSQL、SQL Server 和 Oracle)
008 - Redshift - 复制和卸载.ipynb
009 - Redshift - 追加、覆盖和更新插入
010 - 镶木地板爬行者
011 - CSV 数据集
012 - CSV 爬虫
013 - 合并 S3 上的数据集
014 - 架构演变
015 - 电子病历
016 - EMR 和 Docker
017 - 分区投影
018 - 快速视线
019 - 雅典娜缓存
020 - Spark 表互操作性
021 - 全局配置
022 - 并发写入分区
023 - 灵活分区过滤器
024 - Athena 查询元数据
025 - Redshift - 使用 Spectrum 加载 Parquet 文件
026 - 亚马逊时间流
027 - 亚马逊时间流 2
028 - 亚马逊DynamoDB
029 - S3 选择
030 - 数据API
031 - 开放搜索
033 - 亚马逊海王星
034 - 使用 Ray 分配呼叫
035 - 在 Ray 远程集群上分配调用
037 - 粘合数据质量
038 - OpenSearch 无服务器
039 - 雅典娜冰山
040 - EMR 无服务器
041 - Amazon Athena 上的 Apache Spark
API参考
亚马逊S3
AWS Glue 目录
亚马逊雅典娜
亚马逊红移
PostgreSQL
MySQL
SQL服务器
甲骨文
数据 API 红移
数据API RDS
开放搜索
AWS Glue 数据质量
亚马逊海王星
动态数据库
亚马逊时间流
亚马逊电子病历
亚马逊 CloudWatch 日志
亚马逊钟声
亚马逊 QuickSight
AWS STS
AWS 秘密管理器
全局配置
分布式-雷
执照
贡献
与我们团队互动的最佳方式是通过 GitHub。您可以打开问题并从我们的错误报告、功能请求模板中进行选择...您还可以在这些社区资源上找到帮助:
#aws-sdk-pandas Slack 频道
在 Stack Overflow 上提问并使用awswrangler
标记它
适用于带有 Ray 的 pandas 的 AWS 开发工具包的运行手册
启用内部日志记录示例:
导入logginglogging.basicConfig(level=logging.INFO, format="[%(name)s][%(funcName)s] %(message)s")logging.getLogger("awswrangler").setLevel(logging.DEBUG) logging.getLogger("botocore.credentials").setLevel(logging.CRITICAL)
进入AWS lambda:
导入logginglogging.getLogger(“awswrangler”).setLevel(logging.DEBUG)