Spark هو محرك تحليلات موحد لمعالجة البيانات على نطاق واسع. يوفر واجهات برمجة تطبيقات عالية المستوى في Scala و Java و Python و R ، ومحرك محسن يدعم الرسوم البيانية للحساب العام لتحليل البيانات. كما يدعم مجموعة غنية من الأدوات ذات المستوى الأعلى بما في ذلك Spark SQL لـ SQL و DataFrames و Pandas API على Spark لأعباء عمل Pandas و MLLIB للتعلم الآلي و GraphX لمعالجة الرسوم البيانية والبث المنظم لمعالجة الدفق.
يمكنك العثور على أحدث وثائق Spark ، بما في ذلك دليل البرمجة ، على صفحة الويب للمشروع. يحتوي ملف ReadMe هذا فقط على تعليمات الإعداد الأساسية.
تم تصميم Spark باستخدام Apache Maven. لبناء Spark وبرامج مثالها ، قم بتشغيل:
./build/mvn -DskipTests clean package
(لا تحتاج إلى القيام بذلك إذا قمت بتنزيل حزمة تم تصميمها مسبقًا.)
يتوفر المزيد من الوثائق التفصيلية من موقع المشروع ، في "Building Spark".
للاطلاع على نصائح التطوير العامة ، بما في ذلك معلومات حول تطوير الشرارة باستخدام IDE ، راجع "أدوات المطورين المفيدة".
أسهل طريقة لبدء استخدام Spark هي من خلال قذيفة Scala:
./bin/spark-shell
جرب الأمر التالي ، الذي يجب أن يعيد 1،000،000،000:
scala > spark.range( 1000 * 1000 * 1000 ).count()
بدلاً من ذلك ، إذا كنت تفضل Python ، فيمكنك استخدام Python Shell:
./bin/pyspark
وتشغيل الأمر التالي ، والذي يجب أن يعود أيضًا 1،000،000،000:
>> > spark . range ( 1000 * 1000 * 1000 ). count ()
يأتي Spark أيضًا مع العديد من البرامج العينة في دليل examples
. لتشغيل واحد منهم ، استخدم ./bin/run-example <class> [params]
. على سبيل المثال:
./bin/run-example SparkPi
سيتم تشغيل مثال PI محليًا.
يمكنك تعيين متغير البيئة الرئيسية عند تشغيل أمثلة لتقديم أمثلة إلى مجموعة. يمكن أن يكون هذا الشرارة: // url ، "الغزل" لتشغيل على الغزل ، و "محلي" للتشغيل محليًا باستخدام موضوع واحد ، أو "محلي [n]" لتشغيل محليًا باستخدام مؤشرات الترابط n. يمكنك أيضًا استخدام اسم فئة مختصرة إذا كان الفصل في حزمة examples
. على سبيل المثال:
MASTER=spark://host:7077 ./bin/run-example SparkPi
العديد من البرامج مثال طباعة المساعدة في حالة عدم إعطاء معاملات.
الاختبار أولاً يتطلب بناء الشرارة. بمجرد إنشاء الشرارة ، يمكن إجراء الاختبارات باستخدام:
./dev/run-tests
يرجى الاطلاع على الإرشادات حول كيفية إجراء اختبارات لوحدة أو اختبارات فردية.
يوجد أيضًا اختبار تكامل Kubernetes ، انظر المديرات/Kubernetes/تكامل الاختبارات/README.MD
يستخدم Spark مكتبة Hadoop Core للتحدث إلى HDFs وأنظمة التخزين الأخرى المدعومة من Hadoop. نظرًا لأن البروتوكولات قد تغيرت في إصدارات مختلفة من Hadoop ، فيجب عليك بناء الشرارة مقابل نفس الإصدار الذي تعمل به المجموعة.
يرجى الرجوع إلى وثائق الإنشاء في "تحديد إصدار Hadoop وتمكين الخيوط" للحصول على إرشادات مفصلة حول بناء توزيع معين من Hadoop ، بما في ذلك بناء توزيعات Thriftserver الخلية والخلية.
يرجى الرجوع إلى دليل التكوين في الوثائق عبر الإنترنت للحصول على نظرة عامة حول كيفية تكوين Spark.
يرجى مراجعة مساهمة دليل Spark للحصول على معلومات حول كيفية البدء في المساهمة في المشروع.