Spark es un motor de análisis unificado para el procesamiento de datos a gran escala. Proporciona API de alto nivel en Scala, Java, Python y R, y un motor optimizado que admite gráficos de cálculo generales para el análisis de datos. También es compatible con un rico conjunto de herramientas de nivel superior que incluye Spark SQL para SQL y Dataframes, PANDAS API en Spark para cargas de trabajo Pandas, MLLIB para el aprendizaje automático, GRAPHX para el procesamiento de gráficos y la transmisión estructurada para el procesamiento de flujo.
Puede encontrar la última documentación de Spark, incluida una guía de programación, en la página web del proyecto. Este archivo ReadMe solo contiene instrucciones de configuración básicas.
Spark se construye con Apache Maven. Para construir Spark y sus programas de ejemplo, ejecute:
./build/mvn -DskipTests clean package
(No necesita hacer esto si descarga un paquete preconstruido).
La documentación más detallada está disponible en el sitio del proyecto, en "Building Spark".
Para consejos de desarrollo general, incluida la información sobre el desarrollo de Spark con un IDE, consulte "Herramientas útiles de desarrollador".
La forma más fácil de comenzar a usar Spark es a través de la carcasa de Scala:
./bin/spark-shell
Pruebe el siguiente comando, que debería devolver 1,000,000,000:
scala > spark.range( 1000 * 1000 * 1000 ).count()
Alternativamente, si prefiere Python, puede usar la carcasa de Python:
./bin/pyspark
Y ejecute el siguiente comando, que también debería devolver 1,000,000,000:
>> > spark . range ( 1000 * 1000 * 1000 ). count ()
Spark también viene con varios programas de muestra en el directorio examples
. Para ejecutar uno de ellos, use ./bin/run-example <class> [params]
. Por ejemplo:
./bin/run-example SparkPi
ejecutará el ejemplo de Pi localmente.
Puede establecer la variable de entorno maestro al ejecutar ejemplos para enviar ejemplos a un clúster. Esto puede ser chispa: // url, "hilo" para ejecutarse en hilo y "local" para ejecutar localmente con un hilo, o "local [n]" para ejecutar localmente con n hilos. También puede usar un nombre de clase abreviado si la clase está en el paquete examples
. Por ejemplo:
MASTER=spark://host:7077 ./bin/run-example SparkPi
Muchos de los programas de ejemplo imprimen ayuda si no se dan parámetros.
Pruebas primero requiere construir chispa. Una vez que se construye Spark, las pruebas se pueden ejecutar usando:
./dev/run-tests
Consulte la guía sobre cómo ejecutar pruebas para un módulo o pruebas individuales.
También hay una prueba de integración de Kubernetes, consulte los gerentes de recursos/kubernetes/tests de integración/readme.md
Spark usa la Biblioteca Core Hadoop para hablar con HDFS y otros sistemas de almacenamiento respaldados por Hadoop. Debido a que los protocolos han cambiado en diferentes versiones de Hadoop, debe construir chispa contra la misma versión que ejecuta su clúster.
Consulte la documentación de compilación en "Especificar la versión de Hadoop y habilitar el hilo" para una guía detallada sobre la construcción de una distribución particular de Hadoop, incluida la construcción de distribuciones de servidor ThriftServer de colmena particulares.
Consulte la guía de configuración en la documentación en línea para obtener una descripción general sobre cómo configurar Spark.
Revise la Guía de contribución a Spark para obtener información sobre cómo comenzar a contribuir al proyecto.