Kirchliche lateinische IPA: /ˈʃi.o/, [ˈʃiː.o], [ˈʃi.i̯o] Verb: Ich kann, wissen, verstehen, Wissen haben.
SCIO ist eine Scala -API für Apache Beam und Google Cloud DataFlow, inspiriert von Apache Spark und Scalding.
* Bereitstellung von Google Cloud DataFlow
Laden Sie das Java Development Kit (JDK) Version 8 herunter und installieren Sie sie.
SBT installieren.
Verwenden Sie unsere Giter8 -Vorlage, um schnell ein neues Scio -Job -Repository zu erstellen:
sbt new spotify/scio.g8
Wechseln Sie zum neuen Repo (Standard- scio-job
) und erstellen Sie es:
cd scio-job
sbt stage
Führen Sie das mitgelieferte Beispiel für Wortzähler aus:
target/universal/stage/bin/scio-job --output=wc
Listenergebnisdateien auflisten und den Inhalt inspizieren:
ls -l wc
cat wc/part-00000-of-00004.txt
Der Einstieg ist der beste Ort, um mit SCIO zu beginnen. Wenn Sie bei Apache Beam und verteilten Datenverarbeitung neu sind, finden Sie zunächst den Beam -Programmierhandbuch, um eine detaillierte Erläuterung des Strahlprogrammiermodells und der Bekämpfung zu erhalten. Wenn Sie Erfahrung mit anderen Scala -Datenverarbeitungsbibliotheken haben, lesen Sie diesen Vergleich zwischen SCIO, Skalierung und Funken.
Beispiele Scio-Pipelines und -Tests finden Sie unter Scio-Beispielen. Viele von ihnen sind direkte Ports aus BEAMs Java -Beispielen. Auf dieser Seite finden Sie einige von ihnen mit einer Erklärung von Seite an Seite. Siehe auch Big Data Rosetta -Code für gemeinsame Datenverarbeitungscode -Snippets in SCIO, Scalling und Spark.
Scio enthält die folgenden Artefakte:
scio-avro
: Add-On für AVRO kann auch eigenständig verwendet werdenscio-cassandra*
: Add-Ons für Cassandrascio-core
: Kernbibliothekscio-elasticsearch*
: Add-Ons für ElasticSearchscio-extra
: zusätzliche Versorgungsunternehmen für die Arbeit mit Sammlungen, Brise usw., Best-Aufwand-Unterstützungscio-google-cloud-platform
: Add-On für Google Cloud-IOs: BigQuery, Bigtable, Pub/Sub, DataStore, Schrännerscio-grpc
: Add-On für GRPC-Serviceanrufescio-jdbc
: Add-On für JDBC IOscio-neo4j
: Add-On für Neo4j ioscio-parquet
: Add-On für Parquetscio-redis
: Add-On für Redisscio-repl
: Erweiterung der scala repl mit sciospezifischen Operationenscio-smb
: Add-On für Sortierbauflädenscio-tensorflow
: Add-On für TensorFlow Tffrecords IO und Vorhersagescio-test
: Alle folgenden Testversorgungsunternehmen. Fügen Sie Ihrem Projekt als "Test" -Entreich hinzuscio-test-core
: Testkern-Dienstprogrammescio-test-google-cloud-platform
: Testen Sie Dienstprogramme für Google Cloud IOsscio-test-parquet
: Testdienstprogramme für ParquetCopyright 2024 Spotify AB.
Lizenziert unter der Apache-Lizenz, Version 2.0: http://www.apache.org/licenses/license-2.0