Descarga spark - Descarga del código fuente spark

spark

Otro código fuente

1.0.0

Descargar

Apache Spark

Spark es un motor de análisis unificado para el procesamiento de datos a gran escala. Proporciona API de alto nivel en Scala, Java, Python y R, y un motor optimizado que admite gráficos de cálculo generales para el análisis de datos. También es compatible con un rico conjunto de herramientas de nivel superior que incluye Spark SQL para SQL y Dataframes, PANDAS API en Spark para cargas de trabajo Pandas, MLLIB para el aprendizaje automático, GRAPHX para el procesamiento de gráficos y la transmisión estructurada para el procesamiento de flujo.

Versión oficial: https://spark.apache.org/
Versión de desarrollo: https://apache.github.io/spark/

Documentación en línea

Puede encontrar la última documentación de Spark, incluida una guía de programación, en la página web del proyecto. Este archivo ReadMe solo contiene instrucciones de configuración básicas.

Chispa de construcción

Spark se construye con Apache Maven. Para construir Spark y sus programas de ejemplo, ejecute:

./build/mvn -DskipTests clean package

(No necesita hacer esto si descarga un paquete preconstruido).

La documentación más detallada está disponible en el sitio del proyecto, en "Building Spark".

Para consejos de desarrollo general, incluida la información sobre el desarrollo de Spark con un IDE, consulte "Herramientas útiles de desarrollador".

Caparazón de escala interactivo

La forma más fácil de comenzar a usar Spark es a través de la carcasa de Scala:

./bin/spark-shell

Pruebe el siguiente comando, que debería devolver 1,000,000,000:

scala > spark.range( 1000 * 1000 * 1000 ).count()

Caparazón de pitón interactivo

Alternativamente, si prefiere Python, puede usar la carcasa de Python:

./bin/pyspark

Y ejecute el siguiente comando, que también debería devolver 1,000,000,000:

 >> > spark . range ( 1000 * 1000 * 1000 ). count ()

Programas de ejemplo

Spark también viene con varios programas de muestra en el directorio examples . Para ejecutar uno de ellos, use ./bin/run-example <class> [params] . Por ejemplo:

./bin/run-example SparkPi

ejecutará el ejemplo de Pi localmente.

Puede establecer la variable de entorno maestro al ejecutar ejemplos para enviar ejemplos a un clúster. Esto puede ser chispa: // url, "hilo" para ejecutarse en hilo y "local" para ejecutar localmente con un hilo, o "local [n]" para ejecutar localmente con n hilos. También puede usar un nombre de clase abreviado si la clase está en el paquete examples . Por ejemplo:

MASTER=spark://host:7077 ./bin/run-example SparkPi

Muchos de los programas de ejemplo imprimen ayuda si no se dan parámetros.

Pruebas de ejecución

Pruebas primero requiere construir chispa. Una vez que se construye Spark, las pruebas se pueden ejecutar usando:

./dev/run-tests

Consulte la guía sobre cómo ejecutar pruebas para un módulo o pruebas individuales.

También hay una prueba de integración de Kubernetes, consulte los gerentes de recursos/kubernetes/tests de integración/readme.md

Una nota sobre las versiones de Hadoop

Spark usa la Biblioteca Core Hadoop para hablar con HDFS y otros sistemas de almacenamiento respaldados por Hadoop. Debido a que los protocolos han cambiado en diferentes versiones de Hadoop, debe construir chispa contra la misma versión que ejecuta su clúster.

Consulte la documentación de compilación en "Especificar la versión de Hadoop y habilitar el hilo" para una guía detallada sobre la construcción de una distribución particular de Hadoop, incluida la construcción de distribuciones de servidor ThriftServer de colmena particulares.