scio
v0.14.9
教会拉丁ipa:/ˈʃi.o/,[ˈʃiː.o],[ˈʃi.i̯o]动词:我可以,知道,理解,有知识。
SCIO是Apache Beam的Scala API和Google Cloud DataFlow,灵感来自Apache Spark和Sucding。
* Google Cloud DataFlow提供
下载并安装Java开发套件(JDK)版本8。
安装SBT。
使用我们的giter8模板快速创建一个新的SCIO作业存储库:
sbt new spotify/scio.g8
切换到新的存储库(默认的scio-job
)并构建它:
cd scio-job
sbt stage
运行随附的单词计数示例:
target/universal/stage/bin/scio-job --output=wc
列出结果文件并检查内容:
ls -l wc
cat wc/part-00000-of-00004.txt
入门是SCIO的最佳场所。如果您是Apache Beam的新手和分布式数据处理,请首先查看Beam编程指南,以详细说明梁编程模型和概念。如果您有其他Scala数据处理库的经验,请查看SCIO,烫伤和Spark之间的比较。
示例SCIO管道和测试可以在SCIO审查下找到。其中许多是Beam Java示例的直接端口。有关其中一些并排说明的信息,请参见此页面。另请参阅SCIO,烫伤和Spark中的常见数据处理代码段的大数据Rosetta代码。
SCIO包括以下工件:
scio-avro
:avro的附加组件,也可以独立使用scio-cassandra*
:Cassandra的附加组件scio-core
:核心库scio-elasticsearch*
:Elasticsearch的附加组件scio-extra
:用于收藏,微风等的额外公用事业,最好的努力支持scio-google-cloud-platform
:Google Cloud IO的附加组件:bigquery,bigtable,pub/sub,datastore,spannerscio-grpc
:GRPC服务呼叫的附加组件scio-jdbc
:JDBC IO的附加组件scio-neo4j
:neo4j io的附加组件scio-parquet
:Parquet的附加组件scio-redis
:Redis的附加组件scio-repl
:SCIO特定操作的Scala Repl扩展scio-smb
:排序合并存储桶操作的附加组件scio-tensorflow
:tensorflow tfrecords io和预测的附加组件scio-test
:所有以下测试实用程序。作为“测试”依赖性添加到您的项目中scio-test-core
:测试核心实用程序scio-test-google-cloud-platform
:Google Cloud IO的测试实用程序scio-test-parquet
:镶木木材的测试实用程序版权2024 Spotify AB。
根据Apache许可证许可,版本2.0:http://www.apache.org/licenses/license-2.0