Церковный латинский IPA: /ˈʃi.o/, [ˈʃiː.o], [ˈʃi.i̯o] глагол: я могу, знаю, понимаю, иметь знание.
Scio - это Scio API для Apache Beam и Google Cloud Dataflow, вдохновленные Apache Spark и Scalding.
* Предоставлено Google Cloud DataFlow
Загрузите и установите Java Development Kit (JDK) версия 8.
Установить SBT.
Используйте наш шаблон Giter8, чтобы быстро создать новый репозиторий работы Scio:
sbt new spotify/scio.g8
Переключитесь на новую репо (по умолчанию scio-job
) и создайте его:
cd scio-job
sbt stage
Запустите пример подсчета слов:
target/universal/stage/bin/scio-job --output=wc
Перечислите файлы результатов и осмотрите контент:
ls -l wc
cat wc/part-00000-of-00004.txt
Начало работы - лучшее место для начала с Scio. Если вы новичок в Apache Beam и распределенной обработке данных, сначала ознакомьтесь с Руководством по программированию BEAM для подробного объяснения модели программирования BEAM и концепций. Если у вас есть опыт работы с другими библиотеками обработки данных Scala, ознакомьтесь с этим сравнением между Scio, Scioding и Spark.
Пример трубопроводов и тестов Scio можно найти в Scio-examples. Многие из них являются прямыми портами из примеров Java от Beam. Посмотрите на эту страницу для некоторых из них с пояснением. Также см. Код Rosetta Big Data для общих фрагментов кода обработки данных в Scio, Scilding и Spark.
Scio включает в себя следующие артефакты:
scio-avro
: дополнение для AVRO, также может использоваться автономнойscio-cassandra*
: надстройки для Кассандрыscio-core
: основная библиотекаscio-elasticsearch*
: надстройки для Elasticsearchscio-extra
: дополнительные утилиты для работы с коллекциями, бризом и т. Д., Лучшая поддержка усилийscio-google-cloud-platform
: дополнение для Google Cloud IO: BigQuery, Bigtable, Pub/sub, Datastore, Spannerscio-grpc
: дополнение для сервисных вызовов GRPCscio-jdbc
: дополнение для JDBC IOscio-neo4j
: дополнение для neo4j ioscio-parquet
: дополнение для паркетаscio-redis
: дополнение для Redisscio-repl
: расширение Scala Repl с специфическими операциями Scioscio-smb
: дополнение для сортировки слияния ведраscio-tensorflow
: дополнение для TensorFlow TfreCords IO и прогнозированиеscio-test
: все следующие тестовые утилиты. Добавьте к вашему проекту в качестве «тестовой» зависимостиscio-test-core
: тестирование основных утилитscio-test-google-cloud-platform
: тестовые утилиты для Google Cloud IOscio-test-parquet
: тестовые утилиты для паркетаCopyright 2024 Spotify AB.
Лицензировано по лицензии Apache, версия 2.0: http://www.apache.org/licenses/license-2.0