Unduhan Apache-unduhan kode sumber web crawler Apache Nutch v1.19

Perayap web Apache Nutch v1.19

Kode sumber JAWA

1.19

Unduh

Nutch: Dari mesin pencari hingga sumber Hadoop

Nutch adalah proyek open source yang diimplementasikan di Java di bawah Apache. Sejarah perkembangannya seperti sejarah perkembangan teknologi big data, menyaksikan evolusi dari mesin pencari hingga Hadoop.

Kehidupan Nutch dulu dan sekarang

1. Asal usul mesin pencari

Nutch lahir pada Agustus 2002, awalnya sebagai proyek mesin pencari. Pendirinya, Doug Cutting, juga merupakan pendiri proyek open source terkenal seperti Lucene, Hadoop dan Avro. Kemunculan Nutch menandai bahwa teknologi mesin pencari telah memasuki tahap perkembangan baru.

2. Dari mesin pencari ke web crawler

Mulai dari Nutch versi 1.2, Nutch secara bertahap berkembang menjadi perayap web yang berfokus pada perayapan data dari Internet. Hal ini meletakkan dasar bagi pengembangan Hadoop selanjutnya.

3. Dua cabang: 1.X dan 2.X

Selama pengembangan Nutch, dua cabang dibedakan, 1.X dan 2.X. Perbedaan terbesarnya adalah versi 2.X mengabstraksi penyimpanan data yang mendasarinya dan mendukung beberapa teknologi penyimpanan yang mendasarinya, seperti HDFS.

4. Memunculkan empat proyek open source

Selama evolusi Nutch, empat proyek open source Java dihasilkan: Hadoop, Tika, Gora dan Crawler Commons.

Hadoop: Hadoop adalah kerangka pemrosesan data besar sumber terbuka berdasarkan Nutch dan telah menjadi standar de facto untuk pemrosesan data skala besar.

Tika: Tika menggunakan berbagai proyek penguraian konten sumber terbuka yang ada untuk mengekstrak metadata dan teks terstruktur dari file dalam berbagai format.

Gora: Gora mendukung persistensi data besar ke beberapa implementasi penyimpanan, seperti HBase dan Cassandra.

Crawler Commons: Crawler Commons adalah komponen perayap web universal yang menyediakan seperangkat alat pengembangan perayap lengkap kepada pengembang.

Data Besar dan Nutch

Referensi paling awal terhadap istilah big data dapat ditelusuri kembali ke Nutch. Pada saat itu, data besar digunakan untuk menggambarkan kumpulan data besar yang perlu diproses secara batch atau dianalisis secara bersamaan untuk memperbarui indeks pencarian web.

Saat ini, pengertian big data telah berkembang pesat, dan industri telah merangkum karakteristik big data menjadi empat "V":

1. Volume: Volume data sangat besar.

2. Variasi: Ada banyak tipe data.

3. Nilai: Kepadatan nilai rendah dan nilai komersial tinggi.

4. Kecepatan: Kecepatan pemrosesan yang cepat.

Nutch dan Hadoop tidak dapat dipisahkan

Hadoop adalah salah satu teknologi inti data besar, dan Nutch adalah puncak dari Hadoop dan merupakan sumber dari Hadoop.

Belajar Hadoop, Nutch adalah sumber data terbaik: Apa yang harus dilakukan jika tidak ada data? Tangkap dengan Nutch!

Untuk mempraktikkan Hadoop, Nutch memberikan banyak kasus: Setelah mempelajari Map Reduce dan HDFS Hadoop, apa yang harus saya lakukan jika tidak ada kasus praktis? Pelajari Nutch! Banyak kode Nutch yang ditulis menggunakan Map Reduce dan HDFS. Di mana Anda dapat menemukan kasus aplikasi Hadoop yang lebih baik daripada Nutch?

Dengan mempelajari Nutch, Anda tidak hanya dapat memahami sejarah perkembangan teknologi big data, tetapi juga menguasai keterampilan praktis Hadoop. Dari mesin pencari hingga Hadoop, perjalanan Nutch menunjukkan pesona evolusi teknologi yang berkelanjutan dan memberi kita pengalaman dan sumber daya berharga untuk mempelajari teknologi big data.

Memperluas

Informasi Tambahan