Nutch: من محرك البحث إلى مصدر Hadoop
Nutch هو مشروع مفتوح المصدر تم تنفيذه في Java ضمن Apache، ويشبه تاريخ تطوره تاريخ تطور تكنولوجيا البيانات الضخمة، حيث يشهد التطور من محركات البحث إلى Hadoop.
حياة نوتش الماضية والحالية
تم إنشاء Nutch في أغسطس 2002، في الأصل كمشروع محرك بحث. مؤسسها، دوج كاتنج، هو أيضًا مؤسس مشاريع مفتوحة المصدر معروفة مثل Lucene وHadoop وAvro. يشير ظهور Nutch إلى أن تكنولوجيا محركات البحث دخلت مرحلة جديدة من التطور.
بدءًا من الإصدار 1.2 من Nutch، تطورت Nutch تدريجيًا إلى زاحف ويب يركز على الزحف إلى البيانات من الإنترنت. وقد وضع هذا الأساس لتطوير Hadoop اللاحق.
أثناء تطوير Nutch، تم التمييز بين فرعين، 1.X و2.X. يتمثل الاختلاف الأكبر في أن الإصدار 2.X يلخص تخزين البيانات الأساسي ويدعم العديد من تقنيات التخزين الأساسية، مثل HDFS.
خلال تطور Nutch، تم إنتاج أربعة مشاريع Java مفتوحة المصدر: Hadoop، Tika، Gora وCrawler Commons.
Hadoop: Hadoop هو إطار عمل مفتوح المصدر لمعالجة البيانات الضخمة يعتمد على Nutch وأصبح المعيار الفعلي لمعالجة البيانات على نطاق واسع.
Tika: يستخدم Tika مجموعة متنوعة من مشاريع تحليل المحتوى مفتوحة المصدر الحالية لاستخراج البيانات التعريفية والنص المنظم من الملفات بتنسيقات متعددة.
Gora: يدعم Gora استمرارية البيانات الضخمة في تطبيقات تخزين متعددة، مثل HBase وCassandra.
Crawler Commons: Crawler Commons عبارة عن مكون عالمي لزاحف الويب يوفر للمطورين مجموعة كاملة من أدوات تطوير الزاحف.
البيانات الضخمة والجوز
يمكن إرجاع أول إشارة إلى مصطلح البيانات الضخمة إلى Nutch. في ذلك الوقت، تم استخدام البيانات الضخمة لوصف مجموعات البيانات الكبيرة التي تحتاج إلى معالجة مجمعة أو تحليلها في وقت واحد لتحديث فهارس بحث الويب.
الآن، تم تطوير معنى البيانات الضخمة بشكل كبير، ولخصت الصناعة خصائص البيانات الضخمة في أربعة "V":
1. الحجم: حجم البيانات ضخم.
2. التنوع: هناك العديد من أنواع البيانات.
3. القيمة: كثافة قيمة منخفضة وقيمة تجارية عالية.
4. السرعة: سرعة المعالجة السريعة.
Nutch وHadoop لا ينفصلان
Hadoop هي إحدى التقنيات الأساسية للبيانات الضخمة، وNutch هو ذروة Hadoop وهو مصدر Hadoop.
تعلم Hadoop، Nutch هو أفضل مصدر للبيانات: ماذا تفعل إذا لم تكن هناك بيانات؟ قبض مع Nutch!
لممارسة Hadoop، يوفر Nutch مجموعة كبيرة من الحالات: بعد تعلم Hadoop's Map Reduce وHDFS، ماذا علي أن أفعل إذا لم تكن هناك حالات عملية؟ تعلم نوتش! تتم كتابة الكثير من أكواد Nutch باستخدام Map Reduce وHDFS. أين يمكنك العثور على حالات تطبيق Hadoop أفضل من Nutch؟
من خلال تعلم Nutch، لا يمكنك فهم تاريخ تطور تكنولوجيا البيانات الضخمة فحسب، بل يمكنك أيضًا إتقان المهارات العملية لـ Hadoop. من محرك البحث إلى Hadoop، تظهر رحلة Nutch سحر التطور التكنولوجي المستمر وتزودنا بخبرة وموارد قيمة لتعلم تكنولوجيا البيانات الضخمة.