Muitos clientes da Amazon Web Services (AWS) exigem uma solução de armazenamento e análise de dados que ofereça mais agilidade e flexibilidade do que os sistemas tradicionais de gerenciamento de dados. Um data lake é uma forma cada vez mais popular de armazenar e analisar dados porque permite que as empresas armazenem todos os seus dados, estruturados e não estruturados, em um repositório centralizado. A Nuvem AWS fornece muitos dos elementos básicos necessários para ajudar as empresas a implementar um data lake seguro, flexível e econômico.
A solução de data lake é uma implementação de referência automatizada que implanta uma arquitetura de data lake altamente disponível e econômica na Nuvem AWS. A solução destina-se a abordar pontos problemáticos comuns dos clientes em relação à conceituação de arquiteturas de data lake e configura automaticamente os principais serviços da AWS necessários para marcar, pesquisar, compartilhar e controlar facilmente subconjuntos específicos de dados em uma empresa ou com outras empresas externas. Esta solução permite aos usuários catalogar novos conjuntos de dados e criar perfis de dados para conjuntos de dados existentes no Amazon Simple Storage Service (Amazon S3) e integrar com integração com soluções como AWS Glue e Amazon Athena com esforço mínimo.
Para obter a visão geral completa da solução, visite Data Lake na AWS.
Para obter ajuda ao usar a solução data lake, visite o guia de ajuda on-line.
O projeto data lake consiste em microsserviços que facilitam as áreas funcionais da solução. Esses microsserviços são implantados em um ambiente sem servidor no AWS Lambda.
|-deployment/ [pasta contendo modelos e scripts de construção] |-fonte/ |-api/ |-authorizer/ [autorizador personalizado para gateway de API] |-serviços/ |-admin/ [microsserviço para funcionalidade administrativa do data lake] |-cart/ [microsserviço para funcionalidade de carrinho de data lake] |-logging/ [microsserviço para registro de auditoria de data lake] |-manifest/ [microsserviço para processamento de manifesto de data lake] |-package/ [microsserviço para funcionalidade de pacote de data lake] |-profile/ [microsserviço para funcionalidade de perfil de usuário do data lake] |-search/ [microsserviço para funcionalidade de pesquisa de data lake] |-cli/ [interface de linha de comando do data lake] |-console/ [console de gerenciamento do data lake angularjs] |-recurso/ |-access-validator/ [módulo auxiliar usado para validar permissões granulares] |-helper/ [ajudante personalizado para modelo de implantação do CloudFormation]
Cada microsserviço segue a estrutura de:
|-nome-do-serviço/ |-lib/ |-[bibliotecas de módulos de serviço e testes unitários] |-index.js [ponto de injeção para microsserviço] |-pacote.json
Os procedimentos a seguir pressupõem que toda a configuração no nível do sistema operacional foi concluída. Eles são:
A solução de data lake é desenvolvida com Node.js para os microsserviços executados em AWS Lambda e Angular 1.x para a interface de usuário do console. A versão mais recente da solução de data lake foi testada com Node.js v12.x.
Clone o repositório GitHub aws-data-lake-solution:
git clone https://github.com/awslabs/aws-data-lake-solution.git
export AWS_REGION=<aws-region-code>
export SOLUTION_NAME=<your-solution-name>
export VERSION_CODE=<version-code>
export DEPLOY_BUCKET=<source-bucket-base-name>
export CLOUDFORMATION_TEMPLATE_BUCKET=<cloudformation-template-bucket-name>
us-east-1
, us-west-2
...aws-data-lake-solution
v1.0.0
-[aws-region-code]
a esse nome de bucket. Por exemplo: ./build-s3-dist.sh solutions aws-data-lake-solution v2.0.0 solutions
, o modelo esperará que o código-fonte esteja localizado no bucket solutions-[aws-region-code]
. cd ./aws-data-lake-solution/deployment
chmod +x run-unit-tests.sh
./run-unit-tests.sh
chmod +x build-s3-dist.sh
./build-s3-dist.sh $DEPLOY_BUCKET $SOLUTION_NAME $VERSION_CODE $CLOUDFORMATION_TEMPLATE_BUCKET
aws s3 cp ./global-s3-assets s3://$CLOUDFORMATION_TEMPLATE_BUCKET/$SOLUTION_NAME/$VERSION_CODE --recursive --acl bucket-owner-full-control
aws s3 cp ./regional-s3-assets s3://$DEPLOY_BUCKET-$AWS_REGION/$SOLUTION_NAME/$VERSION_CODE --recursive --acl bucket-owner-full-control
Atualmente, a solução de data lake pode ser implantada nas seguintes regiões: [ us-east-1, us-east-2, us-west-2, eu-west-1, eu-west-2, eu-central-1 , ap-nordeste-1, ap-nordeste-2, ap-sudeste-2, ap-sul-1 ]
Esta solução coleta métricas operacionais anônimas para ajudar a AWS a melhorar a qualidade e os recursos da solução. Para obter mais informações, incluindo como desabilitar esse recurso, consulte o guia de implementação.
Copyright 2019 Amazon.com, Inc. ou suas afiliadas. Todos os direitos reservados.
Licenciado sob a Licença Apache, Versão 2.0 (a "Licença"); você não pode usar este arquivo exceto em conformidade com a Licença. Você pode obter uma cópia da Licença em
http://www.apache.org/licenses/LICENSE-2.0
A menos que exigido pela lei aplicável ou acordado por escrito, o software distribuído sob a Licença é distribuído "COMO ESTÁ", SEM GARANTIAS OU CONDIÇÕES DE QUALQUER TIPO, expressas ou implícitas. Consulte a Licença para saber o idioma específico que rege as permissões e limitações da Licença.