许多 Amazon Web Services (AWS) 客户需要比传统数据管理系统提供更高敏捷性和灵活性的数据存储和分析解决方案。数据湖是一种越来越流行的存储和分析数据的方式,因为它允许企业将所有数据(结构化和非结构化)存储在集中存储库中。 AWS 云提供了帮助企业实施安全、灵活且经济高效的数据湖所需的许多构建块。
数据湖解决方案是一种自动化参考实施,可在 AWS 云上部署高度可用、经济高效的数据湖架构。该解决方案旨在解决围绕数据湖架构概念化的常见客户痛点,并自动配置必要的核心 AWS 服务,以便轻松标记、搜索、共享和管理整个企业或与其他外部企业之间的特定数据子集。该解决方案允许用户对新数据集进行编目,为 Amazon Simple Storage Service (Amazon S3) 中的现有数据集创建数据配置文件,并轻松地与 AWS Glue 和 Amazon Athena 等解决方案集成。
有关完整解决方案概述,请访问 AWS 上的数据湖。
如需使用数据湖解决方案时的帮助,请访问在线帮助指南。
数据湖项目由促进解决方案功能区域的微服务组成。这些微服务部署到 AWS Lambda 中的无服务器环境。
|-deployment/ [包含模板和构建脚本的文件夹] |-来源/ |-api/ |-authorizer/ [api网关的自定义授权者] |-服务/ |-admin/ [用于数据湖管理功能的微服务] |-cart/ [数据湖购物车功能的微服务] |-logging/ [用于数据湖审计日志记录的微服务] |-manifest/ [用于数据湖清单处理的微服务] |-package/ [数据湖包功能的微服务] |-profile/ [数据湖用户配置文件功能的微服务] |-search/ [用于数据湖搜索功能的微服务] |-cli/ [数据湖命令行界面] |-console/ [数据湖 AngularJS 管理控制台] |-资源/ |-access-validator/ [用于验证细粒度权限的辅助模块] |-helper/ [CloudFormation 部署模板的自定义帮助程序]
每个微服务都遵循以下结构:
|-服务名称/ |-lib/ |-[服务模块库和单元测试] |-index.js [微服务注入点] |-package.json
以下过程假设所有操作系统级别的配置均已完成。他们是:
数据湖解决方案是使用 Node.js 开发的,用于在 AWS Lambda 中运行的微服务,并使用 Angular 1.x 开发控制台用户界面。最新版本的数据湖解决方案已使用 Node.js v12.x 进行了测试。
克隆 aws-data-lake-solution GitHub 存储库:
git clone https://github.com/awslabs/aws-data-lake-solution.git
export AWS_REGION=<aws-region-code>
export SOLUTION_NAME=<your-solution-name>
export VERSION_CODE=<version-code>
export DEPLOY_BUCKET=<source-bucket-base-name>
export CLOUDFORMATION_TEMPLATE_BUCKET=<cloudformation-template-bucket-name>
us-east-1
、 us-west-2
...aws-data-lake-solution
v1.0.0
-[aws-region-code]
附加到该存储桶名称。例如: ./build-s3-dist.sh solutions aws-data-lake-solution v2.0.0 solutions
,模板将期望源代码位于solutions-[aws-region-code]
存储桶中。 cd ./aws-data-lake-solution/deployment
chmod +x run-unit-tests.sh
./run-unit-tests.sh
chmod +x build-s3-dist.sh
./build-s3-dist.sh $DEPLOY_BUCKET $SOLUTION_NAME $VERSION_CODE $CLOUDFORMATION_TEMPLATE_BUCKET
aws s3 cp ./global-s3-assets s3://$CLOUDFORMATION_TEMPLATE_BUCKET/$SOLUTION_NAME/$VERSION_CODE --recursive --acl bucket-owner-full-control
aws s3 cp ./regional-s3-assets s3://$DEPLOY_BUCKET-$AWS_REGION/$SOLUTION_NAME/$VERSION_CODE --recursive --acl bucket-owner-full-control
目前,数据湖解决方案可部署在以下区域: [ us-east-1, us-east-2, us-west-2, eu-west-1, eu-west-2, eu-central-1 , ap-东北-1, ap-东北-2, ap-东南-2, ap-南-1 ]
该解决方案收集匿名运营指标,以帮助 AWS 提高解决方案的质量和功能。有关更多信息,包括如何禁用此功能,请参阅实施指南。
版权所有 2019 Amazon.com, Inc. 或其附属公司。版权所有。
根据 Apache 许可证 2.0 版(“许可证”)获得许可;除非遵守许可证,否则您不得使用此文件。您可以在以下位置获取许可证副本:
http://www.apache.org/licenses/LICENSE-2.0
除非适用法律要求或书面同意,否则根据许可证分发的软件均按“原样”分发,不带任何明示或暗示的保证或条件。请参阅许可证,了解许可证下管理权限和限制的特定语言。