De nombreux clients Amazon Web Services (AWS) ont besoin d'une solution de stockage et d'analyse de données offrant plus d'agilité et de flexibilité que les systèmes de gestion de données traditionnels. Un lac de données est un moyen de plus en plus populaire de stocker et d'analyser des données car il permet aux entreprises de stocker toutes leurs données, structurées et non structurées, dans un référentiel centralisé. Le cloud AWS fournit de nombreux éléments de base nécessaires pour aider les entreprises à mettre en œuvre un lac de données sécurisé, flexible et rentable.
La solution de lac de données est une implémentation de référence automatisée qui déploie une architecture de lac de données hautement disponible et rentable sur le cloud AWS. La solution est destinée à résoudre les problèmes courants des clients concernant la conceptualisation des architectures de lacs de données et configure automatiquement les services AWS de base nécessaires pour facilement baliser, rechercher, partager et gérer des sous-ensembles spécifiques de données au sein d'une entreprise ou avec d'autres entreprises externes. Cette solution permet aux utilisateurs de cataloguer de nouveaux ensembles de données et de créer des profils de données pour les ensembles de données existants dans Amazon Simple Storage Service (Amazon S3) et de les intégrer à des solutions telles qu'AWS Glue et Amazon Athena avec un minimum d'effort.
Pour un aperçu complet de la solution, visitez Data Lake sur AWS.
Pour obtenir de l’aide sur l’utilisation de la solution Data Lake, consultez le guide d’aide en ligne.
Le projet de lac de données se compose de microservices qui facilitent les domaines fonctionnels de la solution. Ces microservices sont déployés dans un environnement sans serveur dans AWS Lambda.
|-deployment/ [dossier contenant des modèles et des scripts de build] |-source/ |-api/ |-authorizer/ [autorisateur personnalisé pour la passerelle API] |-services/ |-admin/ [microservice pour la fonctionnalité d'administration du lac de données] |-cart/ [microservice pour la fonctionnalité de panier de lac de données] |-logging/ [microservice pour la journalisation d'audit des lacs de données] |-manifest/ [microservice pour le traitement des manifestes des lacs de données] |-package/ [microservice pour la fonctionnalité du package de lac de données] |-profile/ [microservice pour la fonctionnalité de profil utilisateur du lac de données] |-search/ [microservice pour la fonctionnalité de recherche de lac de données] |-cli/ [interface de ligne de commande du lac de données] |-console/ [console de gestion Angularjs du lac de données] |-ressource/ |-access-validator/ [module auxiliaire utilisé pour valider les autorisations granulaires] |-helper/ [assistant personnalisé pour le modèle de déploiement CloudFormation]
Chaque microservice suit la structure de :
|-nom-du-service/ |-lib/ |-[bibliothèques de modules de service et tests unitaires] |-index.js [point d'injection pour le microservice] |-package.json
Les procédures suivantes supposent que toute la configuration au niveau du système d'exploitation a été terminée. Ils sont:
La solution de lac de données est développée avec Node.js pour les microservices qui s'exécutent dans AWS Lambda et Angular 1.x pour l'interface utilisateur de la console. La dernière version de la solution Data Lake a été testée avec Node.js v12.x.
Clonez le dépôt GitHub aws-data-lake-solution :
git clone https://github.com/awslabs/aws-data-lake-solution.git
export AWS_REGION=<aws-region-code>
export SOLUTION_NAME=<your-solution-name>
export VERSION_CODE=<version-code>
export DEPLOY_BUCKET=<source-bucket-base-name>
export CLOUDFORMATION_TEMPLATE_BUCKET=<cloudformation-template-bucket-name>
us-east-1
, us-west-2
...aws-data-lake-solution
v1.0.0
-[aws-region-code]
à ce nom de compartiment. Par exemple : ./build-s3-dist.sh solutions aws-data-lake-solution v2.0.0 solutions
, le modèle s'attendra alors à ce que le code source se trouve dans le compartiment solutions-[aws-region-code]
. cd ./aws-data-lake-solution/deployment
chmod +x run-unit-tests.sh
./run-unit-tests.sh
chmod +x build-s3-dist.sh
./build-s3-dist.sh $DEPLOY_BUCKET $SOLUTION_NAME $VERSION_CODE $CLOUDFORMATION_TEMPLATE_BUCKET
aws s3 cp ./global-s3-assets s3://$CLOUDFORMATION_TEMPLATE_BUCKET/$SOLUTION_NAME/$VERSION_CODE --recursive --acl bucket-owner-full-control
aws s3 cp ./regional-s3-assets s3://$DEPLOY_BUCKET-$AWS_REGION/$SOLUTION_NAME/$VERSION_CODE --recursive --acl bucket-owner-full-control
Actuellement, la solution de lac de données peut être déployée dans les régions suivantes : [us-east-1, us-east-2, us-west-2, eu-west-1, eu-west-2, eu-central-1 , ap-nord-est-1, ap-nord-est-2, ap-sud-est-2, ap-sud-1 ]
Cette solution collecte des métriques opérationnelles anonymes pour aider AWS à améliorer la qualité et les fonctionnalités de la solution. Pour plus d’informations, notamment sur la façon de désactiver cette fonctionnalité, veuillez consulter le guide de mise en œuvre.
Copyright 2019 Amazon.com, Inc. ou ses sociétés affiliées. Tous droits réservés.
Sous licence Apache, version 2.0 (la « Licence » ); vous ne pouvez pas utiliser ce fichier sauf en conformité avec la licence. Vous pouvez obtenir une copie de la licence à
http://www.apache.org/licenses/LICENSE-2.0
Sauf disposition contraire de la loi applicable ou accord écrit, le logiciel distribué sous la licence est distribué « EN L'ÉTAT », SANS GARANTIE OU CONDITION D'AUCUNE SORTE, expresse ou implicite. Consultez la licence pour connaître la langue spécifique régissant les autorisations et les limitations en vertu de la licence.