Eclesiástico latim ipa: /ˈʃi.o/, [ˈʃiː.o], [ˈʃi.i̯o] Verbo: Eu posso, sei, entender, ter conhecimento.
O SCIO é uma API do Scala para Apache Beam e Google Cloud DataFlow inspirado pelo Apache Spark e Scalding.
* Fornecido pelo Google Cloud Dataflow
Faça o download e instale o Java Development Kit (JDK) versão 8.
Instale sbt.
Use nosso modelo Giter8 para criar rapidamente um novo repositório de empregos no SCIO:
sbt new spotify/scio.g8
Mude para o novo repo (padrão scio-job
) e construa-o:
cd scio-job
sbt stage
Execute o exemplo de contagem de palavras incluído:
target/universal/stage/bin/scio-job --output=wc
Listar arquivos de resultado e inspecionar conteúdo:
ls -l wc
cat wc/part-00000-of-00004.txt
Introdução é o melhor lugar para começar com o SCIO. Se você é novo no Apache Beam e no processamento de dados distribuído, consulte o Guia de Programação da Viga primeiro para obter uma explicação detalhada do modelo e conceitos de programação do feixe. Se você tiver experiência com outras bibliotecas de processamento de dados do Scala, confira esta comparação entre SCIO, escaldamento e Spark.
Exemplo de pipelines e testes SCIO podem ser encontrados em ex do SCIO. Muitos deles são portas diretas dos exemplos Java da Beam. Veja esta página para alguns deles com explicação lado a lado. Consulte também o código do Rosetta de Big Data para obter trechos de código de processamento de dados comuns em SCIO, escaldagem e Spark.
O SCIO inclui os seguintes artefatos:
scio-avro
: O complemento para Avro, também pode ser usado independentescio-cassandra*
: complementos para Cassandrascio-core
: Core Libraryscio-elasticsearch*
: complementos para elasticsearchscio-extra
: utilitários extras para trabalhar com coleções, brisa, etc., melhor suporte de esforçoscio-google-cloud-platform
: complemento para o Google Cloud IO's: bigquery, bigtable, pub/sub, datastore, spannerscio-grpc
: complemento para chamadas de serviço GRPCscio-jdbc
: complemento para JDBC ioscio-neo4j
: add-on para neo4j ioscio-parquet
: complemento para parquetscio-redis
: complemento para redisscio-repl
: Extensão do Scala Repl com operações específicas do SCIOscio-smb
: Operações de balde de mesclagem de classificação para classificarscio-tensorflow
: complemento para tensorflow tfrecords io e previsãoscio-test
: todos os seguintes utilitários de teste. Adicione ao seu projeto como uma dependência de "teste"scio-test-core
: Utilitários de núcleo de testescio-test-google-cloud-platform
: Utilitários de teste para o Google Cloud IO'sscio-test-parquet
: Utilitários de teste para parquetCopyright 2024 Spotify AB.
Licenciado sob a licença Apache, versão 2.0: http://www.apache.org/license/license-2.0