Spark เป็นเครื่องมือวิเคราะห์แบบครบวงจรสำหรับการประมวลผลข้อมูลขนาดใหญ่ มันให้ API ระดับสูงใน Scala, Java, Python และ R และเครื่องมือที่ได้รับการปรับปรุงให้ดีที่สุดซึ่งรองรับกราฟการคำนวณทั่วไปสำหรับการวิเคราะห์ข้อมูล นอกจากนี้ยังรองรับชุดเครื่องมือระดับสูงกว่าชุดรวมถึง Spark SQL สำหรับ SQL และ DataFrames, Pandas API บน Spark สำหรับเวิร์กโหลดแพนด้า, mllib สำหรับการเรียนรู้ของเครื่อง, กราฟก์สำหรับการประมวลผลกราฟและการสตรีมที่มีโครงสร้างสำหรับการประมวลผลสตรีม
คุณสามารถค้นหาเอกสาร Spark ล่าสุดรวมถึงคู่มือการเขียนโปรแกรมบนหน้าเว็บโครงการ ไฟล์ readme นี้มีคำแนะนำการตั้งค่าพื้นฐานเท่านั้น
Spark สร้างขึ้นโดยใช้ Apache Maven ในการสร้าง Spark และโปรแกรมตัวอย่าง Run:
./build/mvn -DskipTests clean package
(คุณไม่จำเป็นต้องทำเช่นนี้หากคุณดาวน์โหลดแพ็คเกจที่สร้างไว้ล่วงหน้า)
เอกสารรายละเอียดเพิ่มเติมสามารถใช้ได้จากเว็บไซต์โครงการที่ "Building Spark"
สำหรับเคล็ดลับการพัฒนาทั่วไปรวมถึงข้อมูลเกี่ยวกับการพัฒนา Spark โดยใช้ IDE ดู "เครื่องมือนักพัฒนาที่มีประโยชน์"
วิธีที่ง่ายที่สุดในการเริ่มใช้ Spark คือผ่านเปลือกสกาล่า:
./bin/spark-shell
ลองใช้คำสั่งต่อไปนี้ซึ่งควรส่งคืน 1,000,000,000:
scala > spark.range( 1000 * 1000 * 1000 ).count()
หรือถ้าคุณชอบ Python คุณสามารถใช้เชลล์ Python:
./bin/pyspark
และเรียกใช้คำสั่งต่อไปนี้ซึ่งควรส่งคืน 1,000,000,000:
>> > spark . range ( 1000 * 1000 * 1000 ). count ()
Spark ยังมาพร้อมกับโปรแกรมตัวอย่างหลายรายการในไดเรกทอรี examples
หากต้องการเรียกใช้หนึ่งในนั้นให้ใช้ ./bin/run-example <class> [params]
ตัวอย่างเช่น:
./bin/run-example SparkPi
จะเรียกใช้ตัวอย่าง PI ในพื้นที่
คุณสามารถตั้งค่าตัวแปรสภาพแวดล้อมหลักเมื่อเรียกใช้ตัวอย่างเพื่อส่งตัวอย่างไปยังคลัสเตอร์ สิ่งนี้สามารถเป็นประกาย: // url, "เส้นด้าย" เพื่อทำงานบนเส้นด้ายและ "ท้องถิ่น" เพื่อทำงานในพื้นที่ด้วยหนึ่งเธรดหรือ "ท้องถิ่น [n]" เพื่อทำงานในท้องถิ่นด้วยเธรด n นอกจากนี้คุณยังสามารถใช้ชื่อคลาสย่อได้หากคลาสอยู่ในแพ็คเกจ examples
ตัวอย่างเช่น:
MASTER=spark://host:7077 ./bin/run-example SparkPi
โปรแกรมตัวอย่างจำนวนมากพิมพ์วิธีใช้ความช่วยเหลือหากไม่มีการกำหนดพารามิเตอร์
การทดสอบก่อนต้องมีจุดประกายการสร้าง เมื่อสร้างประกายไฟแล้วการทดสอบสามารถทำงานได้โดยใช้:
./dev/run-tests
โปรดดูคำแนะนำเกี่ยวกับวิธีเรียกใช้การทดสอบสำหรับโมดูลหรือการทดสอบแต่ละรายการ
นอกจากนี้ยังมีการทดสอบการรวม Kubernetes ดูที่ทรัพยากร-ผู้จัดการ/Kubernetes/การทดสอบการรวม/readme.md
Spark ใช้ห้องสมุด Hadoop Core เพื่อพูดคุยกับ HDFS และระบบจัดเก็บข้อมูลอื่น ๆ ที่รองรับ Hadoop เนื่องจากโปรโตคอลมีการเปลี่ยนแปลงใน Hadoop รุ่นต่าง ๆ คุณต้องสร้าง Spark กับเวอร์ชันเดียวกันกับที่คลัสเตอร์ของคุณทำงาน
โปรดดูเอกสารประกอบการสร้างที่ "การระบุ Hadoop เวอร์ชันและการเปิดใช้งานเส้นด้าย" สำหรับคำแนะนำโดยละเอียดเกี่ยวกับการสร้างสำหรับการแจกจ่าย Hadoop โดยเฉพาะรวมถึงอาคารสำหรับการแจกแจงรังไข่และรังไข่โดยเฉพาะ
โปรดดูคู่มือการกำหนดค่าในเอกสารออนไลน์สำหรับภาพรวมเกี่ยวกับวิธีการกำหนดค่า Spark
โปรดตรวจสอบการบริจาคเพื่อ Spark Guide สำหรับข้อมูลเกี่ยวกับวิธีการเริ่มต้นที่มีส่วนร่วมในโครงการ