ดาวน์โหลด spark - spark Source Code Download

spark

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

Apache Spark

Spark เป็นเครื่องมือวิเคราะห์แบบครบวงจรสำหรับการประมวลผลข้อมูลขนาดใหญ่ มันให้ API ระดับสูงใน Scala, Java, Python และ R และเครื่องมือที่ได้รับการปรับปรุงให้ดีที่สุดซึ่งรองรับกราฟการคำนวณทั่วไปสำหรับการวิเคราะห์ข้อมูล นอกจากนี้ยังรองรับชุดเครื่องมือระดับสูงกว่าชุดรวมถึง Spark SQL สำหรับ SQL และ DataFrames, Pandas API บน Spark สำหรับเวิร์กโหลดแพนด้า, mllib สำหรับการเรียนรู้ของเครื่อง, กราฟก์สำหรับการประมวลผลกราฟและการสตรีมที่มีโครงสร้างสำหรับการประมวลผลสตรีม

เวอร์ชันอย่างเป็นทางการ: https://spark.apache.org/
เวอร์ชันการพัฒนา: https://apache.github.io/spark/

เอกสารออนไลน์

คุณสามารถค้นหาเอกสาร Spark ล่าสุดรวมถึงคู่มือการเขียนโปรแกรมบนหน้าเว็บโครงการ ไฟล์ readme นี้มีคำแนะนำการตั้งค่าพื้นฐานเท่านั้น

จุดประกายไฟ

Spark สร้างขึ้นโดยใช้ Apache Maven ในการสร้าง Spark และโปรแกรมตัวอย่าง Run:

./build/mvn -DskipTests clean package

(คุณไม่จำเป็นต้องทำเช่นนี้หากคุณดาวน์โหลดแพ็คเกจที่สร้างไว้ล่วงหน้า)

เอกสารรายละเอียดเพิ่มเติมสามารถใช้ได้จากเว็บไซต์โครงการที่ "Building Spark"

สำหรับเคล็ดลับการพัฒนาทั่วไปรวมถึงข้อมูลเกี่ยวกับการพัฒนา Spark โดยใช้ IDE ดู "เครื่องมือนักพัฒนาที่มีประโยชน์"

เชลล์สกาล่าแบบโต้ตอบ

วิธีที่ง่ายที่สุดในการเริ่มใช้ Spark คือผ่านเปลือกสกาล่า:

./bin/spark-shell

ลองใช้คำสั่งต่อไปนี้ซึ่งควรส่งคืน 1,000,000,000:

scala > spark.range( 1000 * 1000 * 1000 ).count()

เชลล์ Python แบบโต้ตอบ

หรือถ้าคุณชอบ Python คุณสามารถใช้เชลล์ Python:

./bin/pyspark

และเรียกใช้คำสั่งต่อไปนี้ซึ่งควรส่งคืน 1,000,000,000:

 >> > spark . range ( 1000 * 1000 * 1000 ). count ()

ตัวอย่างโปรแกรม

Spark ยังมาพร้อมกับโปรแกรมตัวอย่างหลายรายการในไดเรกทอรี examples หากต้องการเรียกใช้หนึ่งในนั้นให้ใช้ ./bin/run-example <class> [params] ตัวอย่างเช่น:

./bin/run-example SparkPi

จะเรียกใช้ตัวอย่าง PI ในพื้นที่

คุณสามารถตั้งค่าตัวแปรสภาพแวดล้อมหลักเมื่อเรียกใช้ตัวอย่างเพื่อส่งตัวอย่างไปยังคลัสเตอร์ สิ่งนี้สามารถเป็นประกาย: // url, "เส้นด้าย" เพื่อทำงานบนเส้นด้ายและ "ท้องถิ่น" เพื่อทำงานในพื้นที่ด้วยหนึ่งเธรดหรือ "ท้องถิ่น [n]" เพื่อทำงานในท้องถิ่นด้วยเธรด n นอกจากนี้คุณยังสามารถใช้ชื่อคลาสย่อได้หากคลาสอยู่ในแพ็คเกจ examples ตัวอย่างเช่น:

MASTER=spark://host:7077 ./bin/run-example SparkPi

โปรแกรมตัวอย่างจำนวนมากพิมพ์วิธีใช้ความช่วยเหลือหากไม่มีการกำหนดพารามิเตอร์

การทดสอบกำลังดำเนินการ

การทดสอบก่อนต้องมีจุดประกายการสร้าง เมื่อสร้างประกายไฟแล้วการทดสอบสามารถทำงานได้โดยใช้:

./dev/run-tests

โปรดดูคำแนะนำเกี่ยวกับวิธีเรียกใช้การทดสอบสำหรับโมดูลหรือการทดสอบแต่ละรายการ

นอกจากนี้ยังมีการทดสอบการรวม Kubernetes ดูที่ทรัพยากร-ผู้จัดการ/Kubernetes/การทดสอบการรวม/readme.md

หมายเหตุเกี่ยวกับเวอร์ชัน Hadoop

Spark ใช้ห้องสมุด Hadoop Core เพื่อพูดคุยกับ HDFS และระบบจัดเก็บข้อมูลอื่น ๆ ที่รองรับ Hadoop เนื่องจากโปรโตคอลมีการเปลี่ยนแปลงใน Hadoop รุ่นต่าง ๆ คุณต้องสร้าง Spark กับเวอร์ชันเดียวกันกับที่คลัสเตอร์ของคุณทำงาน

โปรดดูเอกสารประกอบการสร้างที่ "การระบุ Hadoop เวอร์ชันและการเปิดใช้งานเส้นด้าย" สำหรับคำแนะนำโดยละเอียดเกี่ยวกับการสร้างสำหรับการแจกจ่าย Hadoop โดยเฉพาะรวมถึงอาคารสำหรับการแจกแจงรังไข่และรังไข่โดยเฉพาะ