많은 Amazon Web Services(AWS) 고객은 기존 데이터 관리 시스템보다 더 나은 민첩성과 유연성을 제공하는 데이터 스토리지 및 분석 솔루션을 필요로 합니다. 데이터 레이크는 기업이 구조화된 데이터와 구조화되지 않은 모든 데이터를 중앙 저장소에 저장할 수 있기 때문에 데이터를 저장하고 분석하는 방법으로 점점 더 널리 사용되고 있습니다. AWS 클라우드는 기업이 안전하고 유연하며 비용 효율적인 데이터 레이크를 구현하는 데 필요한 다양한 구성 요소를 제공합니다.
데이터 레이크 솔루션은 가용성이 높고 비용 효율적인 데이터 레이크 아키텍처를 AWS 클라우드에 배포하는 자동화된 참조 구현입니다. 이 솔루션은 데이터 레이크 아키텍처 개념화와 관련된 고객의 일반적인 문제점을 해결하고 비즈니스 전반에서 또는 다른 외부 비즈니스와 함께 특정 데이터 하위 집합을 쉽게 태그 지정, 검색, 공유 및 관리하는 데 필요한 핵심 AWS 서비스를 자동으로 구성하기 위한 것입니다. 이 솔루션을 사용하면 사용자는 새로운 데이터 세트를 분류하고, Amazon Simple Storage Service(Amazon S3)에서 기존 데이터 세트에 대한 데이터 프로필을 생성하고, 최소한의 노력으로 AWS Glue 및 Amazon Athena와 같은 솔루션과 통합할 수 있습니다.
전체 솔루션 개요를 보려면 AWS의 Data Lake를 방문하세요.
데이터 레이크 솔루션 사용 시 도움이 필요하면 온라인 도움말 가이드를 방문하세요.
데이터 레이크 프로젝트는 솔루션의 기능 영역을 촉진하는 마이크로서비스로 구성됩니다. 이러한 마이크로서비스는 AWS Lambda의 서버리스 환경에 배포됩니다.
|-deployment/ [템플릿 및 빌드 스크립트가 포함된 폴더] |-소스/ |-api/ |-authorizer/ [API 게이트웨이에 대한 사용자 정의 권한 부여자] |-서비스/ |-admin/ [데이터 레이크 관리 기능을 위한 마이크로서비스] |-cart/ [데이터 레이크 카트 기능을 위한 마이크로서비스] |-logging/ [데이터 레이크 감사 로깅을 위한 마이크로서비스] |-manifest/ [데이터 레이크 매니페스트 처리를 위한 마이크로서비스] |-package/ [데이터 레이크 패키지 기능을 위한 마이크로서비스] |-profile/ [데이터 레이크 사용자 프로필 기능을 위한 마이크로서비스] |-search/ [데이터 레이크 검색 기능을 위한 마이크로서비스] |-cli/ [데이터 레이크 명령줄 인터페이스] |-console/ [데이터 레이크 Anglejs 관리 콘솔] |-자원/ |-access-validator/ [세부적인 권한을 검증하는 데 사용되는 보조 모듈] |-helper/ [CloudFormation 배포 템플릿을 위한 사용자 지정 도우미]
각 마이크로서비스는 다음 구조를 따릅니다.
|-서비스 이름/ |-lib/ |-[서비스 모듈 라이브러리 및 단위 테스트] |-index.js [마이크로서비스의 주입 지점] |-패키지.json
다음 절차에서는 OS 수준 구성이 모두 완료되었다고 가정합니다. 그들은:
데이터 레이크 솔루션은 AWS Lambda에서 실행되는 마이크로서비스용 Node.js와 콘솔 사용자 인터페이스용 Angular 1.x를 사용하여 개발되었습니다. 최신 버전의 데이터 레이크 솔루션은 Node.js v12.x에서 테스트되었습니다.
aws-data-lake-solution GitHub 리포지토리를 복제합니다.
git clone https://github.com/awslabs/aws-data-lake-solution.git
export AWS_REGION=<aws-region-code>
export SOLUTION_NAME=<your-solution-name>
export VERSION_CODE=<version-code>
export DEPLOY_BUCKET=<source-bucket-base-name>
export CLOUDFORMATION_TEMPLATE_BUCKET=<cloudformation-template-bucket-name>
us-east-1
, us-west-2
...aws-data-lake-solution
v1.0.0
-[aws-region-code]
추가합니다. 예를 들어 ./build-s3-dist.sh solutions aws-data-lake-solution v2.0.0 solutions
이면 템플릿은 소스 코드가 solutions-[aws-region-code]
버킷에 있을 것으로 예상합니다. cd ./aws-data-lake-solution/deployment
chmod +x run-unit-tests.sh
./run-unit-tests.sh
chmod +x build-s3-dist.sh
./build-s3-dist.sh $DEPLOY_BUCKET $SOLUTION_NAME $VERSION_CODE $CLOUDFORMATION_TEMPLATE_BUCKET
aws s3 cp ./global-s3-assets s3://$CLOUDFORMATION_TEMPLATE_BUCKET/$SOLUTION_NAME/$VERSION_CODE --recursive --acl bucket-owner-full-control
aws s3 cp ./regional-s3-assets s3://$DEPLOY_BUCKET-$AWS_REGION/$SOLUTION_NAME/$VERSION_CODE --recursive --acl bucket-owner-full-control
현재 데이터 레이크 솔루션은 다음 지역에 배포될 수 있습니다: [ us-east-1, us-east-2, us-west-2, eu-west-1, eu-west-2, eu-central-1 , ap-northeast-1, ap-northeast-2, ap-southeast-2, ap-south-1 ]
이 솔루션은 익명의 운영 지표를 수집하여 AWS가 솔루션의 품질과 기능을 개선하는 데 도움을 줍니다. 이 기능을 비활성화하는 방법을 포함한 자세한 내용은 구현 가이드를 참조하세요.
저작권 2019 Amazon.com, Inc. 또는 그 계열사. 모든 권리 보유.
Apache 라이센스 버전 2.0("라이센스")에 따라 라이센스가 부여되었습니다. 라이센스를 준수하는 경우를 제외하고는 이 파일을 사용할 수 없습니다. 다음에서 라이센스 사본을 얻을 수 있습니다.
http://www.apache.org/licenses/LICENSE-2.0
해당 법률에서 요구하거나 서면으로 동의하지 않는 한, 라이선스에 따라 배포되는 소프트웨어는 명시적이든 묵시적이든 어떠한 종류의 보증이나 조건 없이 "있는 그대로" 배포됩니다. 라이선스에 따른 허가 및 제한 사항을 관리하는 특정 언어는 라이선스를 참조하세요.