許多 Amazon Web Services (AWS) 客戶需要比傳統資料管理系統提供更高敏捷性和靈活性的資料儲存和分析解決方案。資料湖是一種越來越流行的儲存和分析資料的方式,因為它允許企業將所有資料(結構化和非結構化)儲存在集中儲存庫中。 AWS 雲端提供了許多協助企業實施安全、靈活且經濟高效的資料湖所需的建置區塊。
資料湖解決方案是一種自動化參考實施,可在 AWS 雲端上部署高度可用、經濟高效的資料湖架構。此解決方案旨在解決圍繞資料湖架構概念化的常見客戶痛點,並自動配置必要的核心 AWS 服務,以便輕鬆標記、搜尋、共用和管理整個企業或與其他外部企業的特定資料子集。該解決方案允許使用者對新資料集進行編目,為 Amazon Simple Storage Service (Amazon S3) 中的現有資料集建立資料配置文件,並以最少的工作量與 AWS Glue 和 Amazon Athena 等解決方案整合。
有關完整解決方案概述,請造訪 AWS 上的資料湖。
如需使用資料湖解決方案時的協助,請造訪線上協助指南。
資料湖計畫由促進解決方案功能區域的微服務組成。這些微服務部署到 AWS Lambda 中的無伺服器環境。
|-deployment/ [包含範本和建置腳本的資料夾] |-來源/ |-api/ |-authorizer/ [api網關的自訂授權者] |-服務/ |-admin/ [用於資料湖管理功能的微服務] |-cart/ [資料湖購物車功能的微服務] |-logging/ [用於資料湖稽核日誌記錄的微服務] |-manifest/ [用於資料湖清單處理的微服務] |-package/ [資料湖包功能的微服務] |-profile/ [資料湖使用者設定檔功能的微服務] |-search/ [用於資料湖搜尋功能的微服務] |-cli/ [資料湖命令列介面] |-console/ [資料湖 AngularJS 管理控制台] |-資源/ |-access-validator/ [用於驗證細粒度權限的輔助模組] |-helper/ [CloudFormation 部署範本的自訂幫助程式]
每個微服務都遵循以下結構:
|-服務名稱/ |-lib/ |-[服務模組庫和單元測試] |-index.js [微服務注入點] |-package.json
以下過程假設所有作業系統層級的配置均已完成。他們是:
資料湖解決方案是使用 Node.js 開發的,用於在 AWS Lambda 中運行的微服務,並使用 Angular 1.x 開發控制台使用者介面。最新版本的資料湖解決方案已使用 Node.js v12.x 進行了測試。
克隆 aws-data-lake-solution GitHub 儲存庫:
git clone https://github.com/awslabs/aws-data-lake-solution.git
export AWS_REGION=<aws-region-code>
export SOLUTION_NAME=<your-solution-name>
export VERSION_CODE=<version-code>
export DEPLOY_BUCKET=<source-bucket-base-name>
export CLOUDFORMATION_TEMPLATE_BUCKET=<cloudformation-template-bucket-name>
us-east-1
、 us-west-2
...aws-data-lake-solution
v1.0.0
-[aws-region-code]
附加到該儲存桶名稱。例如: ./build-s3-dist.sh solutions aws-data-lake-solution v2.0.0 solutions
,模板將期望原始碼位於solutions-[aws-region-code]
儲存桶中。 cd ./aws-data-lake-solution/deployment
chmod +x run-unit-tests.sh
./run-unit-tests.sh
chmod +x build-s3-dist.sh
./build-s3-dist.sh $DEPLOY_BUCKET $SOLUTION_NAME $VERSION_CODE $CLOUDFORMATION_TEMPLATE_BUCKET
aws s3 cp ./global-s3-assets s3://$CLOUDFORMATION_TEMPLATE_BUCKET/$SOLUTION_NAME/$VERSION_CODE --recursive --acl bucket-owner-full-control
aws s3 cp ./regional-s3-assets s3://$DEPLOY_BUCKET-$AWS_REGION/$SOLUTION_NAME/$VERSION_CODE --recursive --acl bucket-owner-full-control
目前,資料湖解決方案可部署在以下區域: [ us-east-1, us-east-2, us-west-2, eu-west-1, eu-west-2, eu-central-1 , ap -東北-1, ap-東北-2, ap-東南-2, ap-南-1 ]
此解決方案收集匿名營運指標,以協助 AWS 提高解決方案的品質和功能。有關更多信息,包括如何停用此功能,請參閱實施指南。
版權所有 2019 Amazon.com, Inc. 或其附屬公司。版權所有。
根據 Apache 許可證 2.0 版(“許可證”)獲得許可;除非遵守許可證,否則您不得使用此文件。您可以在以下位置取得許可證副本:
http://www.apache.org/licenses/LICENSE-2.0
除非適用法律要求或書面同意,否則根據許可證分發的軟體均以「原樣」分發,不帶任何明示或暗示的保證或條件。請參閱許可證,了解許可證下管理權限和限制的特定語言。