Многим клиентам Amazon Web Services (AWS) требуется решение для хранения и анализа данных, обеспечивающее большую гибкость и гибкость, чем традиционные системы управления данными. Озеро данных становится все более популярным способом хранения и анализа данных, поскольку оно позволяет предприятиям хранить все свои данные, структурированные и неструктурированные, в централизованном хранилище. Облако AWS предоставляет множество строительных блоков, необходимых предприятиям для создания безопасного, гибкого и экономичного озера данных.
Решение для озера данных — это автоматизированная эталонная реализация, которая развертывает высокодоступную и экономичную архитектуру озера данных в облаке AWS. Решение предназначено для устранения распространенных проблем клиентов, связанных с концептуализацией архитектур озер данных, и автоматически настраивает основные сервисы AWS, необходимые для простой маркировки, поиска, совместного использования и управления определенными подмножествами данных в рамках бизнеса или с другими внешними предприятиями. Это решение позволяет пользователям каталогизировать новые наборы данных и создавать профили данных для существующих наборов данных в Amazon Simple Storage Service (Amazon S3), а также интегрироваться с такими решениями, как AWS Glue и Amazon Athena, с минимальными усилиями.
Полный обзор решения см. на странице Data Lake на AWS.
Для получения помощи по использованию решения озера данных посетите онлайн-справочное руководство.
Проект озера данных состоит из микросервисов, которые облегчают функциональные области решения. Эти микросервисы развертываются в бессерверной среде в AWS Lambda.
|-deployment/ [папка, содержащая шаблоны и сценарии сборки] |-источник/ |-апи/ |-authorizer/ [пользовательский авторизатор для шлюза API] |-услуги/ |-admin/ [микросервис для администрирования озера данных] |-cart/ [микросервис для функциональности корзины озера данных] |-logging/ [микросервис для ведения журнала аудита озера данных] |-manifest/ [микросервис для обработки манифеста озера данных] |-package/ [микросервис для функциональности пакета озера данных] |-profile/ [микросервис для функциональности профиля пользователя озера данных] |-search/ [микросервис для функции поиска в озере данных] |-cli/ [интерфейс командной строки озера данных] |-console/ [консоль управления angularjs озера данных] |-ресурс/ |-access-validator/ [вспомогательный модуль, используемый для проверки детальных разрешений] |-helper/ [пользовательский помощник для шаблона развертывания CloudFormation]
Каждый микросервис имеет структуру:
|-имя-сервиса/ |-lib/ |-[библиотеки сервисных модулей и модульные тесты] |-index.js [точка внедрения микросервиса] |-package.json
Следующие процедуры предполагают, что вся настройка на уровне ОС завершена. Они есть:
Решение озера данных разработано с использованием Node.js для микросервисов, которые работают в AWS Lambda, и Angular 1.x для пользовательского интерфейса консоли. Последняя версия решения озера данных была протестирована с помощью Node.js v12.x.
Клонируйте репозиторий aws-data-lake-solution на GitHub:
git clone https://github.com/awslabs/aws-data-lake-solution.git
export AWS_REGION=<aws-region-code>
export SOLUTION_NAME=<your-solution-name>
export VERSION_CODE=<version-code>
export DEPLOY_BUCKET=<source-bucket-base-name>
export CLOUDFORMATION_TEMPLATE_BUCKET=<cloudformation-template-bucket-name>
us-east-1
, us-west-2
...aws-data-lake-solution
v1.0.0
-[aws-region-code]
к этому имени сегмента. Например: ./build-s3-dist.sh solutions aws-data-lake-solution v2.0.0 solutions
шаблон будет ожидать, что исходный код будет расположен в сегменте solutions-[aws-region-code]
. cd ./aws-data-lake-solution/deployment
chmod +x run-unit-tests.sh
./run-unit-tests.sh
chmod +x build-s3-dist.sh
./build-s3-dist.sh $DEPLOY_BUCKET $SOLUTION_NAME $VERSION_CODE $CLOUDFORMATION_TEMPLATE_BUCKET
aws s3 cp ./global-s3-assets s3://$CLOUDFORMATION_TEMPLATE_BUCKET/$SOLUTION_NAME/$VERSION_CODE --recursive --acl bucket-owner-full-control
aws s3 cp ./regional-s3-assets s3://$DEPLOY_BUCKET-$AWS_REGION/$SOLUTION_NAME/$VERSION_CODE --recursive --acl bucket-owner-full-control
В настоящее время решение озера данных можно развернуть в следующих регионах: [ us-east-1, us-east-2, us-west-2, eu-west-1, eu-west-2, eu-central-1 , ап-северо-восток-1, ап-северо-восток-2, ап-юго-восток-2, ап-юго-1 ]
Это решение собирает анонимные операционные метрики, чтобы помочь AWS улучшить качество и возможности решения. Дополнительную информацию, в том числе о том, как отключить эту возможность, см. в руководстве по реализации.
Авторские права принадлежат Amazon.com, Inc. или ее дочерним компаниям, 2019 г. Все права защищены.
Лицензия Apache версии 2.0 («Лицензия»); вы не можете использовать этот файл, кроме как в соответствии с Лицензией. Вы можете получить копию Лицензии по адресу:
http://www.apache.org/licenses/LICENSE-2.0
Если это не требуется действующим законодательством или не согласовано в письменной форме, программное обеспечение, распространяемое по Лицензии, распространяется на условиях «КАК ЕСТЬ», БЕЗ КАКИХ-ЛИБО ГАРАНТИЙ ИЛИ УСЛОВИЙ, явных или подразумеваемых. См. Лицензию для определения конкретного языка, регулирующего разрешения и ограничения в рамках Лицензии.