Viele Kunden von Amazon Web Services (AWS) benötigen eine Datenspeicher- und Analyselösung, die mehr Agilität und Flexibilität bietet als herkömmliche Datenverwaltungssysteme. Ein Data Lake ist eine immer beliebter werdende Methode zum Speichern und Analysieren von Daten, da er es Unternehmen ermöglicht, alle ihre Daten, strukturiert und unstrukturiert, in einem zentralen Repository zu speichern. Die AWS Cloud bietet viele der Bausteine, die Unternehmen benötigen, um einen sicheren, flexiblen und kostengünstigen Data Lake zu implementieren.
Die Data-Lake-Lösung ist eine automatisierte Referenzimplementierung, die eine hochverfügbare, kostengünstige Data-Lake-Architektur in der AWS Cloud bereitstellt. Die Lösung soll häufige Kundenprobleme bei der Konzeption von Data-Lake-Architekturen lösen und automatisch die zentralen AWS-Dienste konfigurieren, die zum einfachen Markieren, Durchsuchen, Teilen und Verwalten spezifischer Teilmengen von Daten innerhalb eines Unternehmens oder mit anderen externen Unternehmen erforderlich sind. Mit dieser Lösung können Benutzer neue Datensätze katalogisieren und Datenprofile für vorhandene Datensätze im Amazon Simple Storage Service (Amazon S3) erstellen und mit minimalem Aufwand in Lösungen wie AWS Glue und Amazon Athena integrieren.
Die vollständige Lösungsübersicht finden Sie unter Data Lake auf AWS.
Wenn Sie Hilfe bei der Verwendung der Data-Lake-Lösung benötigen, besuchen Sie die Online-Hilfe.
Das Data-Lake-Projekt besteht aus Microservices, die die Funktionsbereiche der Lösung ermöglichen. Diese Microservices werden in einer serverlosen Umgebung in AWS Lambda bereitgestellt.
|-deployment/ [Ordner mit Vorlagen und Build-Skripten] |-source/ |-api/ |-authorizer/ [benutzerdefinierter Autorisierer für API-Gateway] |-services/ |-admin/ [Microservice für Data Lake-Verwaltungsfunktionen] |-cart/ [Microservice für Data-Lake-Cart-Funktionalität] |-logging/ [Mikroservice für die Data-Lake-Audit-Protokollierung] |-manifest/ [Mikroservice für die Verarbeitung von Data-Lake-Manifesten] |-package/ [Microservice für Data-Lake-Paketfunktionalität] |-profile/ [Microservice für Data Lake-Benutzerprofilfunktionalität] |-search/ [Mikroservice für Data-Lake-Suchfunktionalität] |-cli/ [Data Lake-Befehlszeilenschnittstelle] |-console/ [Data Lake AngularJS-Verwaltungskonsole] |-ressource/ |-access-validator/ [Hilfsmodul zur Validierung granularer Berechtigungen] |-helper/ [benutzerdefinierter Helfer für die CloudFormation-Bereitstellungsvorlage]
Jeder Microservice folgt der Struktur von:
|-Dienstname/ |-lib/ |-[Servicemodulbibliotheken und Komponententests] |-index.js [Einspritzpunkt für Microservice] |-package.json
Bei den folgenden Verfahren wird davon ausgegangen, dass die gesamte Konfiguration auf Betriebssystemebene abgeschlossen ist. Sie sind:
Die Data-Lake-Lösung wird mit Node.js für die Microservices entwickelt, die in AWS Lambda und Angular 1.x für die Konsolenbenutzeroberfläche ausgeführt werden. Die neueste Version der Data Lake-Lösung wurde mit Node.js v12.x getestet.
Klonen Sie das GitHub-Repository aws-data-lake-solution:
git clone https://github.com/awslabs/aws-data-lake-solution.git
export AWS_REGION=<aws-region-code>
export SOLUTION_NAME=<your-solution-name>
export VERSION_CODE=<version-code>
export DEPLOY_BUCKET=<source-bucket-base-name>
export CLOUDFORMATION_TEMPLATE_BUCKET=<cloudformation-template-bucket-name>
us-east-1
, us-west-2
...aws-data-lake-solution
v1.0.0
-[aws-region-code]
an diesen Bucket-Namen an. Beispiel: ./build-s3-dist.sh solutions aws-data-lake-solution v2.0.0 solutions
, die Vorlage erwartet dann, dass sich der Quellcode im Bucket solutions-[aws-region-code]
befindet. cd ./aws-data-lake-solution/deployment
chmod +x run-unit-tests.sh
./run-unit-tests.sh
chmod +x build-s3-dist.sh
./build-s3-dist.sh $DEPLOY_BUCKET $SOLUTION_NAME $VERSION_CODE $CLOUDFORMATION_TEMPLATE_BUCKET
aws s3 cp ./global-s3-assets s3://$CLOUDFORMATION_TEMPLATE_BUCKET/$SOLUTION_NAME/$VERSION_CODE --recursive --acl bucket-owner-full-control
aws s3 cp ./regional-s3-assets s3://$DEPLOY_BUCKET-$AWS_REGION/$SOLUTION_NAME/$VERSION_CODE --recursive --acl bucket-owner-full-control
Derzeit kann die Data-Lake-Lösung in den folgenden Regionen bereitgestellt werden: [ us-east-1, us-east-2, us-west-2, eu-west-1, eu-west-2, eu-central-1 , ap-northeast-1, ap-northeast-2, ap-southeast-2, ap-south-1 ]
Diese Lösung sammelt anonyme Betriebsmetriken, um AWS dabei zu helfen, die Qualität und Funktionen der Lösung zu verbessern. Weitere Informationen, einschließlich der Deaktivierung dieser Funktion, finden Sie im Implementierungsleitfaden.
Copyright 2019 Amazon.com, Inc. oder seine verbundenen Unternehmen. Alle Rechte vorbehalten.
Lizenziert unter der Apache-Lizenz, Version 2.0 (die „Lizenz“); Sie dürfen diese Datei nur in Übereinstimmung mit der Lizenz verwenden. Eine Kopie der Lizenz erhalten Sie unter
http://www.apache.org/licenses/LICENSE-2.0
Sofern nicht durch geltendes Recht vorgeschrieben oder schriftlich vereinbart, wird die im Rahmen der Lizenz vertriebene Software „WIE BESEHEN“ und OHNE GEWÄHRLEISTUNGEN ODER BEDINGUNGEN JEGLICHER ART, weder ausdrücklich noch stillschweigend, vertrieben. Die spezifische Sprache, die die Berechtigungen und Einschränkungen im Rahmen der Lizenz regelt, finden Sie in der Lizenz.