Nutch: จากเครื่องมือค้นหาสู่ที่มาของ Hadoop
Nutch เป็นโครงการโอเพ่นซอร์สที่ดำเนินการใน Java ภายใต้ Apache ประวัติการพัฒนานั้นเปรียบเสมือนประวัติศาสตร์ของการพัฒนาเทคโนโลยีข้อมูลขนาดใหญ่ที่ได้เห็นวิวัฒนาการจากเครื่องมือค้นหาไปจนถึง Hadoop
ชีวิตในอดีตและปัจจุบันของนุช
นุชเกิดเมื่อเดือนสิงหาคม พ.ศ. 2545 โดยเดิมเป็นโครงการเครื่องมือค้นหา Doug Cutting ผู้ก่อตั้ง ยังเป็นผู้ก่อตั้งโครงการโอเพ่นซอร์สที่มีชื่อเสียง เช่น Lucene, Hadoop และ Avro การเกิดขึ้นของ Nutch แสดงให้เห็นว่าเทคโนโลยีเครื่องมือค้นหาได้เข้าสู่ขั้นตอนใหม่ของการพัฒนา
เริ่มต้นจาก Nutch เวอร์ชัน 1.2 Nutch ได้ค่อยๆ พัฒนาเป็นโปรแกรมรวบรวมข้อมูลเว็บที่เน้นการรวบรวมข้อมูลจากอินเทอร์เน็ต นี่เป็นการวางรากฐานสำหรับการพัฒนา Hadoop ในภายหลัง
ในระหว่างการพัฒนาของนุช มีความแตกต่าง 2 สาขา คือ 1.X และ 2.X ความแตกต่างที่ใหญ่ที่สุดคือเวอร์ชัน 2.X จะสรุปพื้นที่จัดเก็บข้อมูลพื้นฐานและรองรับเทคโนโลยีการจัดเก็บข้อมูลพื้นฐานหลายอย่าง เช่น HDFS
ในช่วงวิวัฒนาการของ Nutch ได้มีการสร้างโปรเจ็กต์โอเพ่นซอร์ส Java ขึ้นมาสี่โปรเจ็กต์ ได้แก่ Hadoop, Tika, Gora และ Crawler Commons
Hadoop: Hadoop เป็นเฟรมเวิร์กการประมวลผลข้อมูลขนาดใหญ่แบบโอเพ่นซอร์สที่ใช้ Nutch และกลายเป็นมาตรฐานสำหรับการประมวลผลข้อมูลขนาดใหญ่โดยพฤตินัย
Tika: Tika ใช้โปรเจ็กต์การแยกวิเคราะห์เนื้อหาโอเพ่นซอร์สที่มีอยู่มากมายเพื่อดึงข้อมูลเมตาและข้อความที่มีโครงสร้างจากไฟล์ในรูปแบบต่างๆ
Gora: Gora รองรับการคงอยู่ของข้อมูลขนาดใหญ่ในการใช้งานพื้นที่จัดเก็บข้อมูลที่หลากหลาย เช่น HBase และ Cassandra
Crawler Commons: Crawler Commons เป็นส่วนประกอบ web crawler สากลที่ให้นักพัฒนามีชุดเครื่องมือพัฒนา crawler ครบชุด
บิ๊กดาต้าและนุช
การอ้างอิงถึงคำว่า big data ที่เก่าแก่ที่สุดสามารถย้อนกลับไปที่ Nutch ได้ ในขณะนั้น ข้อมูลขนาดใหญ่ถูกใช้เพื่ออธิบายชุดข้อมูลขนาดใหญ่ที่จำเป็นต้องได้รับการประมวลผลเป็นชุดหรือวิเคราะห์พร้อมกันเพื่ออัปเดตดัชนีการค้นหาเว็บ
ขณะนี้ ความหมายของข้อมูลขนาดใหญ่ได้รับการพัฒนาอย่างมาก และอุตสาหกรรมได้สรุปลักษณะของข้อมูลขนาดใหญ่ออกเป็นสี่ "V":
1. ปริมาณ: ปริมาณข้อมูลมีขนาดใหญ่มาก
2. ความหลากหลาย: มีข้อมูลหลายประเภท
3. มูลค่า: ความหนาแน่นของมูลค่าต่ำและมูลค่าทางการค้าสูง
4. ความเร็ว: ความเร็วในการประมวลผลที่รวดเร็ว
Nutch และ Hadoop แยกกันไม่ออก
Hadoop เป็นหนึ่งในเทคโนโลยีหลักของ Big Data และ Nutch คือจุดสุดยอดของ Hadoop และเป็นที่มาของ Hadoop
การเรียนรู้ Hadoop ทำให้ Nutch เป็นแหล่งข้อมูลที่ดีที่สุด จะทำอย่างไรหากไม่มีข้อมูล? จับกับนุช!
ในการฝึกฝน Hadoop นั้น Nutch ได้จัดเตรียมกรณีต่างๆ ไว้มากมาย: หลังจากเรียนรู้ Map Remove และ HDFS ของ Hadoop แล้ว ฉันควรทำอย่างไรหากไม่มีกรณีการใช้งานจริง? เรียนนัท! โค้ดของ Nutch จำนวนมากเขียนโดยใช้ Map ลดและ HDFS คุณจะพบกรณีแอปพลิเคชัน Hadoop ที่ดีกว่า Nutch ได้ที่ไหน
ด้วยการเรียนรู้ Nutch คุณไม่เพียงแต่สามารถเข้าใจประวัติการพัฒนาของเทคโนโลยีข้อมูลขนาดใหญ่เท่านั้น แต่ยังเชี่ยวชาญทักษะการปฏิบัติของ Hadoop อีกด้วย จากเครื่องมือค้นหาไปจนถึง Hadoop การเดินทางของ Nutch แสดงให้เห็นถึงเสน่ห์ของวิวัฒนาการทางเทคโนโลยีอย่างต่อเนื่อง และมอบประสบการณ์อันมีค่าและทรัพยากรสำหรับการเรียนรู้เทคโนโลยี Big Data