AWS의 팬더
Athena, Glue, Redshift, Timestream, OpenSearch, Neptune, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer 및 S3(Parquet, CSV, JSON 및 EXCEL)과 쉽게 통합됩니다.
AWS Professional Service 오픈 소스 이니셔티브 | [email protected]
원천 | 다운로드 | 설치 명령 |
---|---|---|
파이파이 | pip install awswrangler | |
콘다 | conda install -c conda-forge awswrangler |
️ 버전 3.0부터 선택적 모듈을 명시적으로 설치해야 합니다.
➡️pip install 'awswrangler[redshift]'
빠른 시작
대규모로
문서 읽기
도움 받기
벌채 반출
설치 명령: pip install awswrangler
️ 버전 3.0부터 선택적 모듈을 명시적으로 설치해야 합니다.
➡️pip install 'awswrangler[redshift]'
import awswrangler as wrimport pandas as pdfrom datetime import datetimedf = pd.DataFrame({"id": [1, 2], "value": ["foo", "boo"]})# Data Lakewr.s3에 데이터 저장. to_parquet(df=df,path="s3://bucket/dataset/",dataset=True,database="my_db",table="my_table")# Amazon S3df에서 직접 데이터 검색 = wr.s3.read_parquet("s3://bucket/dataset/", 데이터세트=True)# Amazon Athenadf에서 데이터 검색 = wr.athena.read_sql_query("SELECT * FROM my_table", 데이터베이스="my_db")# Glue 카탈로그에서 Redshift 연결을 얻고 Redshift Spectrumcon에서 데이터를 검색합니다 = wr.redshift.connect("my-glue-connection")df = wr.redshift.read_sql_query("SELECT * FROM external_schema.my_table", con=con)con.close()# Amazon Timestream Writedf = pd.DataFrame({ "시간": [datetime.now(), datetime.now()], "my_dimension": ["foo", "boo"],"measure": [1.0, 1.1], })rejected_records = wr.timestream.write(df,database="sampleDB",table="sampleTable",time_col="time",measure_col="measure",dimensions_cols=["my_dimension"], )# Amazon Timestream Querywr.timestream.query("""SELECT time, Measure_value::double, my_dimensionFROM "sampleDB"."sampleTable" ORDER BY time DESC LIMIT 3""")
Pandas용 AWS SDK는 Modin과 Ray를 활용하여 대규모로 워크플로를 실행할 수도 있습니다. 두 프로젝트 모두 작업자 클러스터에 처리를 분산시켜 데이터 워크로드 속도를 높이는 것을 목표로 합니다.
자세한 내용은 문서를 읽어보거나 최신 튜토리얼을 참조하세요.
️ Ray는 현재 Python 3.12에서 사용할 수 없습니다. Pandas용 AWS SDK는 Python 3.12를 지원하지만 대규모로 사용할 수는 없습니다.
Pandas용 AWS SDK란 무엇입니까?
설치하다
파이파이(핍)
콘다
AWS 람다 계층
AWS Glue Python 셸 작업
AWS Glue PySpark 채용 정보
Amazon SageMaker 노트북
Amazon SageMaker 노트북 수명 주기
EMR
소스에서
대규모로
시작하기
지원되는 API
자원
튜토리얼
001 - 소개
002 - 세션
003 - 아마존 S3
004 - 쪽모이 세공 데이터세트
005 - 접착제 카탈로그
006 - 아마존 아테나
007 - 데이터베이스(Redshift, MySQL, PostgreSQL, SQL Server 및 Oracle)
008 - Redshift - 복사 및 언로드.ipynb
009 - Redshift - 추가, 덮어쓰기 및 Upsert
010 - 쪽모이 세공 크롤러
011 - CSV 데이터세트
012 - CSV 크롤러
013 - S3에서 데이터 세트 병합
014 - 스키마 진화
015 - EMR
016 - EMR 및 도커
017 - 파티션 투영
018 - 퀵사이트
019 - 아테나 캐시
020 - 스파크 테이블 상호 운용성
021 - 전역 구성
022 - 동시에 파티션 쓰기
023 - 유연한 파티션 필터
024 - Athena 쿼리 메타데이터
025 - Redshift - Spectrum을 사용하여 Parquet 파일 로드
026 - 아마존 타임스트림
027 - 아마존 타임스트림 2
028 - 아마존 다이나모DB
029 - S3 선택
030 - 데이터 API
031 - 오픈서치
033 - 아마존 넵튠
034 - Ray를 사용하여 통화 분배
035 - 레이 원격 클러스터에 호출 분산
037 - 글루 데이터 품질
038 - 오픈서치 서버리스
039 - 아테나 아이스버그
040 - EMR 서버리스
041 - Amazon Athena의 Apache Spark
API 참조
아마존 S3
AWS Glue 카탈로그
아마존 아테나
아마존 레드시프트
포스트그레SQL
MySQL
SQL 서버
신탁
데이터 API 레드시프트
데이터 API RDS
오픈서치
AWS Glue 데이터 품질
아마존 해왕성
DynamoDB
아마존 타임스트림
아마존 EMR
Amazon CloudWatch 로그
아마존 차임
아마존 퀵사이트
AWS STS
AWS 비밀 관리자
글로벌 구성
분산 - 레이
특허
기여
우리 팀과 상호 작용하는 가장 좋은 방법은 GitHub를 이용하는 것입니다. 문제를 열고 버그 보고서, 기능 요청을 위한 템플릿 중 하나를 선택할 수 있습니다. 또한 다음 커뮤니티 리소스에서 도움을 찾을 수도 있습니다.
#aws-sdk-pandas Slack 채널
Stack Overflow에 질문하고 awswrangler
로 태그를 지정하세요.
Ray가 포함된 Pandas용 AWS SDK용 Runbook
내부 로깅 활성화 예시:
import logging.basicConfig(level=logging.INFO, format="[%(name)s][%(funcName)s] %(message)s")logging.getLogger("awswrangler").setLevel(logging.DEBUG) logging.getLogger("botocore.credentials").setLevel(logging.CRITICAL)
AWS 람다로:
가져오기 로깅logging.getLogger("awswrangler").setLevel(logging.DEBUG)