scio
v0.14.9
教會拉丁ipa:/ˈʃi.o/,[ˈʃiː.o],[ˈʃi.i̯o]動詞:我可以,知道,理解,有知識。
SCIO是Apache Beam的Scala API和Google Cloud DataFlow,靈感來自Apache Spark和Sucding。
* Google Cloud DataFlow提供
下載並安裝Java開發套件(JDK)版本8。
安裝SBT。
使用我們的giter8模板快速創建一個新的SCIO作業存儲庫:
sbt new spotify/scio.g8
切換到新的存儲庫(默認的scio-job
)並構建它:
cd scio-job
sbt stage
運行隨附的單詞計數示例:
target/universal/stage/bin/scio-job --output=wc
列出結果文件並檢查內容:
ls -l wc
cat wc/part-00000-of-00004.txt
入門是SCIO的最佳場所。如果您是Apache Beam的新手和分佈式數據處理,請首先查看Beam編程指南,以詳細說明梁編程模型和概念。如果您有其他Scala數據處理庫的經驗,請查看SCIO,燙傷和Spark之間的比較。
示例SCIO管道和測試可以在SCIO審查下找到。其中許多是Beam Java示例的直接端口。有關其中一些並排說明的信息,請參見此頁面。另請參閱SCIO,燙傷和Spark中的常見數據處理代碼段的大數據Rosetta代碼。
SCIO包括以下工件:
scio-avro
:avro的附加組件,也可以獨立使用scio-cassandra*
:Cassandra的附加組件scio-core
:核心庫scio-elasticsearch*
:Elasticsearch的附加組件scio-extra
:用於收藏,微風等的額外公用事業,最好的努力支持scio-google-cloud-platform
:Google Cloud IO的附加組件:bigquery,bigtable,pub/sub,datastore,spannerscio-grpc
:GRPC服務呼叫的附加組件scio-jdbc
:JDBC IO的附加組件scio-neo4j
:neo4j io的附加組件scio-parquet
:Parquet的附加組件scio-redis
:Redis的附加組件scio-repl
:SCIO特定操作的Scala Repl擴展scio-smb
:排序合併存儲桶操作的附加組件scio-tensorflow
:tensorflow tfrecords io和預測的附加組件scio-test
:所有以下測試實用程序。作為“測試”依賴性添加到您的項目中scio-test-core
:測試核心實用程序scio-test-google-cloud-platform
:Google Cloud IO的測試實用程序scio-test-parquet
:鑲木木材的測試實用程序版權2024 Spotify AB。
根據Apache許可證許可,版本2.0:http://www.apache.org/licenses/license-2.0