Eclesiástico latín ipa: /ˈʃi.o/, [ˈʃiː.o], [ˈʃi.i̯o] verbo: puedo, saber, comprender, tener conocimiento.
Scio es una API Scala para Apache Beam y Google Cloud DataFlow inspirado en Apache Spark y Scalding.
* Proporcionado por Google Cloud DataFlow
Descargue e instale la versión 8 del kit de desarrollo Java (JDK).
Instalar SBT.
Use nuestra plantilla GITER8 para crear rápidamente un nuevo repositorio de trabajo de Scio:
sbt new spotify/scio.g8
Cambie al nuevo repositorio (predeterminado scio-job
) y construya:
cd scio-job
sbt stage
Ejecute el ejemplo de conteo de palabras incluido:
target/universal/stage/bin/scio-job --output=wc
Lista de archivos de resultados e inspeccionar contenido:
ls -l wc
cat wc/part-00000-of-00004.txt
Comenzar es el mejor lugar para comenzar con Scio. Si es nuevo en Apache Beam y el procesamiento de datos distribuidos, consulte primero la guía de programación del haz para obtener una explicación detallada del modelo y conceptos de programación del haz. Si tiene experiencia con otras bibliotecas de procesamiento de datos Scala, consulte esta comparación entre Scio, Scalding y Spark.
Ejemplo de tuberías y pruebas de Scio se pueden encontrar en Scio-Examples. Muchos de ellos son puertos directos de los ejemplos Java de Beam. Vea esta página para algunos de ellos con explicación de lado a lado. Consulte también Big Data Rosetta Código para fragmentos de código de procesamiento de datos comunes en Scio, Scalding y Spark.
Scio incluye los siguientes artefactos:
scio-avro
: complemento para Avro, también se puede usar independientescio-cassandra*
: complementos para Cassandrascio-core
: Biblioteca Corescio-elasticsearch*
: complementos para elasticsearchscio-extra
: utilidades adicionales para trabajar con colecciones, brisa, etc., el mejor soporte de esfuerzoscio-google-cloud-platform
: complemento para Google Cloud IO's: BigQuery, BigTable, Pub/Sub, DataStore, Splawernerscio-grpc
: complemento para llamadas de servicio GRPCscio-jdbc
: complemento para JDBC IOscio-neo4j
: complemento para neo4j ioscio-parquet
: complemento para parquetscio-redis
: complemento para Redisscio-repl
: Extensión de la SCALA REPL con operaciones específicas de Scioscio-smb
: complemento para las operaciones de cubo de combinación de clasificaciónscio-tensorflow
: complemento para TensorFlow Tfrecords io y predicciónscio-test
: todas las siguientes utilidades de prueba. Agregue a su proyecto como una dependencia de "prueba"scio-test-core
n-test Utities de núcleoscio-test-google-cloud-platform
: prueba de utilidades para Google Cloud IO'sscio-test-parquet
: Utilidades de prueba para parquetCopyright 2024 Spotify AB.
Licenciado bajo la licencia Apache, versión 2.0: http://www.apache.org/licenses/license-2.0