アマゾン ウェブ サービス (AWS) の多くの顧客は、従来のデータ管理システムよりも優れた俊敏性と柔軟性を提供するデータ ストレージおよび分析ソリューションを必要としています。データ レイクを使用すると、企業は構造化データと非構造化データのすべてを一元的なリポジトリに保存できるため、データを保存および分析する方法としてますます人気が高まっています。 AWS クラウドは、企業が安全で柔軟、かつコスト効率の高いデータレイクを実装するのに必要な構成要素の多くを提供します。
データ レイク ソリューションは、可用性が高く、コスト効率の高いデータ レイク アーキテクチャを AWS クラウドにデプロイする、自動化されたリファレンス実装です。このソリューションは、データレイクアーキテクチャの概念化に関する一般的な顧客の問題点に対処することを目的としており、ビジネス全体または他の外部ビジネスとのデータの特定のサブセットを簡単にタグ付け、検索、共有、管理するために必要なコア AWS サービスを自動的に構成します。このソリューションを使用すると、ユーザーは新しいデータセットをカタログ化し、Amazon Simple Storage Service (Amazon S3) で既存のデータセットのデータプロファイルを作成し、最小限の労力で AWS Glue や Amazon Athena などのソリューションと統合することができます。
ソリューションの完全な概要については、AWS の Data Lake にアクセスしてください。
データ レイク ソリューションの使用に関するヘルプについては、オンライン ヘルプ ガイドを参照してください。
データ レイク プロジェクトは、ソリューションの機能領域を容易にするマイクロサービスで構成されています。これらのマイクロサービスは、AWS Lambda のサーバーレス環境にデプロイされます。
|-deployment/ [テンプレートとビルド スクリプトを含むフォルダー] |-ソース/ |-api/ |-authorizer/ [API ゲートウェイのカスタム オーソライザー] |-サービス/ |-admin/ [データ レイク管理機能用のマイクロサービス] |-cart/ [データ レイク カート機能用のマイクロサービス] |-logging/ [データ レイク監査ログ用のマイクロサービス] |-manifest/ [データ レイク マニフェスト処理用のマイクロサービス] |-package/ [データ レイク パッケージ機能用のマイクロサービス] |-profile/ [データ レイク ユーザー プロファイル機能用のマイクロサービス] |-search/ [データ レイク検索機能用のマイクロサービス] |-cli/ [データレイクコマンドラインインターフェース] |-console/ [データレイク angularjs 管理コンソール] |-リソース/ |-access-validator/ [詳細な権限を検証するために使用される補助モジュール] |-helper/ [CloudFormation デプロイメント テンプレートのカスタム ヘルパー]
各マイクロサービスは次の構造に従います。
|-サービス名/ |-lib/ |-[サービス モジュール ライブラリと単体テスト] |-index.js [マイクロサービスのインジェクションポイント] |-パッケージ.json
次の手順は、OS レベルの構成がすべて完了していることを前提としています。彼らです:
データ レイク ソリューションは、AWS Lambda で実行されるマイクロサービス用の Node.js と、コンソール ユーザー インターフェイス用の Angular 1.x を使用して開発されています。データ レイク ソリューションの最新バージョンは、Node.js v12.x でテストされています。
aws-data-lake-solution GitHub リポジトリのクローンを作成します。
git clone https://github.com/awslabs/aws-data-lake-solution.git
export AWS_REGION=<aws-region-code>
export SOLUTION_NAME=<your-solution-name>
export VERSION_CODE=<version-code>
export DEPLOY_BUCKET=<source-bucket-base-name>
export CLOUDFORMATION_TEMPLATE_BUCKET=<cloudformation-template-bucket-name>
us-east-1
、 us-west-2
...aws-data-lake-solution
v1.0.0
-[aws-region-code]
を追加します。例: ./build-s3-dist.sh solutions aws-data-lake-solution v2.0.0 solutions
場合、テンプレートはソースコードがsolutions-[aws-region-code]
バケットにあることを想定します。 cd ./aws-data-lake-solution/deployment
chmod +x run-unit-tests.sh
./run-unit-tests.sh
chmod +x build-s3-dist.sh
./build-s3-dist.sh $DEPLOY_BUCKET $SOLUTION_NAME $VERSION_CODE $CLOUDFORMATION_TEMPLATE_BUCKET
aws s3 cp ./global-s3-assets s3://$CLOUDFORMATION_TEMPLATE_BUCKET/$SOLUTION_NAME/$VERSION_CODE --recursive --acl bucket-owner-full-control
aws s3 cp ./regional-s3-assets s3://$DEPLOY_BUCKET-$AWS_REGION/$SOLUTION_NAME/$VERSION_CODE --recursive --acl bucket-owner-full-control
現在、データ レイク ソリューションは次のリージョンにデプロイできます: [ us-east-1、us-east-2、us-west-2、eu-west-1、eu-west-2、eu-central-1 、ap-northeast-1、ap-northeast-2、ap-southeast-2、ap-south-1]
このソリューションは、AWS がソリューションの品質と機能を向上させるために匿名の運用メトリクスを収集します。この機能を無効にする方法などの詳細については、実装ガイドを参照してください。
Copyright 2019 Amazon.com, Inc. またはその関連会社。無断転載を禁じます。
Apache License バージョン 2.0 (「ライセンス」) に基づいてライセンスされています。ライセンスに準拠する場合を除き、このファイルを使用することはできません。ライセンスのコピーは次の場所で入手できます。
http://www.apache.org/licenses/LICENSE-2.0
適用される法律で義務付けられている場合または書面による同意がない限り、ライセンスに基づいて配布されるソフトウェアは、明示または黙示を問わず、いかなる種類の保証や条件もなく、「現状のまま」で配布されます。ライセンスに基づく許可と制限を規定する特定の言語については、ライセンスを参照してください。