教会のラテン語IPA:/ˈʃi.o /、[ˈʃiː.o]、[ˈʃi.i̯o]動詞:私はでき、知ることができ、理解し、知識を持っています。
SCIOは、Apache BeamとApache SparkとScaldingに触発されたGoogle Cloud DataflowのScala APIです。
* Google Cloud Dataflowが提供します
Java Development Kit(JDK)バージョン8をダウンロードしてインストールします。
SBTをインストールします。
Giter8テンプレートを使用して、新しいSCIOジョブリポジトリをすばやく作成します。
sbt new spotify/scio.g8
新しいリポジトリ(デフォルトscio-job
)に切り替えてビルドします。
cd scio-job
sbt stage
含まれている単語数の例を実行します:
target/universal/stage/bin/scio-job --output=wc
結果ファイルをリストし、コンテンツを検査します。
ls -l wc
cat wc/part-00000-of-00004.txt
SCIOから始めるのに最適な場所です。 Apache Beamと分散データ処理を初めて使用している場合は、Beamプログラミングモデルと概念の詳細な説明については、Beamプログラミングガイドを最初にご覧ください。他のSCALAデータ処理ライブラリの経験がある場合は、SCIO、Scalding、Sparkのこの比較をご覧ください。
SCIOパイプラインとテストの例は、SCIOの実験の下で見つけることができます。それらの多くは、BeamのJavaの例からの直接ポートです。これらのページについては、並んで説明してください。また、SCIO、Scalding、Sparkの一般的なデータ処理コードスニペットについては、ビッグデータRosettaコードを参照してください。
SCIOには次のアーティファクトが含まれています。
scio-avro
:Avroのアドオン、スタンドアロンも使用できますscio-cassandra*
:Cassandraのアドオンscio-core
:コアライブラリscio-elasticsearch*
:Elasticsearch用アドオンscio-extra
:コレクション、ブリーズなどで作業するための追加ユーティリティ、最善の努力サポートscio-google-cloud-platform
:Google Cloud IOのアドオン:BigQuery、Bigtable、Pub/Sub、Datastore、Spannerscio-grpc
:GRPCサービスコールのアドオンscio-jdbc
:JDBC IOのアドオンscio-neo4j
:NEO4J IOのアドオンscio-parquet
:Parquetのアドオンscio-redis
:Redisのアドオンscio-repl
:SCIO固有の操作によるSCALA REPLの拡張scio-smb
:ソートマージバケット操作用のアドオンscio-tensorflow
:Tensorflow TFrecords IOおよび予測のアドオンscio-test
:すべてのテストユーティリティ。 「テスト」依存関係としてプロジェクトに追加しますscio-test-core
:テストコアユーティリティscio-test-google-cloud-platform
:Google Cloud IOのテストユーティリティscio-test-parquet
:Parquetのテストユーティリティ著作権2024 Spotify AB。
Apacheライセンスの下でライセンス、バージョン2.0:http://www.apache.org/licenses/license-2.0