Apache-Download – Apache Nutch Webcrawler v1.19 Quellcode herunterladen

Apache Nutch Webcrawler v1.19

JAVA-Quellcode

1.19

Herunterladen

Nutch: Von der Suchmaschine zur Quelle von Hadoop

Nutch ist ein in Java unter Apache implementiertes Open-Source-Projekt. Seine Entwicklungsgeschichte ähnelt der Geschichte der Entwicklung der Big-Data-Technologie und zeigt die Entwicklung von Suchmaschinen zu Hadoop.

Nutchs vergangenes und gegenwärtiges Leben

1. Der Ursprung der Suchmaschinen

Nutch wurde im August 2002 ursprünglich als Suchmaschinenprojekt geboren. Sein Gründer, Doug Cutting, ist auch der Gründer bekannter Open-Source-Projekte wie Lucene, Hadoop und Avro. Das Aufkommen von Nutch markiert, dass die Suchmaschinentechnologie in eine neue Entwicklungsstufe eingetreten ist.

2. Von der Suchmaschine zum Webcrawler

Ab Nutch Version 1.2 hat sich Nutch nach und nach zu einem Webcrawler entwickelt, der sich auf das Crawlen von Daten aus dem Internet konzentriert. Damit wurde der Grundstein für die spätere Hadoop-Entwicklung gelegt.

3. Zwei Zweige: 1.X und 2.X

Bei der Entwicklung von Nutch wurden zwei Zweige unterschieden, 1.X und 2.X. Der größte Unterschied besteht darin, dass Version 2.X den zugrunde liegenden Datenspeicher abstrahiert und mehrere zugrunde liegende Speichertechnologien wie HDFS unterstützt.

4. Vier Open-Source-Projekte entstanden

Während der Entwicklung von Nutch wurden vier Java-Open-Source-Projekte produziert: Hadoop, Tika, Gora und Crawler Commons.

Hadoop: Hadoop ist ein Open-Source-Framework für die Big-Data-Verarbeitung, das auf Nutch basiert und zum De-facto-Standard für die Verarbeitung großer Datenmengen geworden ist.

Tika: Tika nutzt eine Vielzahl bestehender Open-Source-Inhaltsanalyseprojekte, um Metadaten und strukturierten Text aus Dateien in verschiedenen Formaten zu extrahieren.

Gora: Gora unterstützt die Persistenz von Big Data in mehreren Speicherimplementierungen, wie z. B. HBase und Cassandra.

Crawler Commons: Crawler Commons ist eine universelle Web-Crawler-Komponente, die Entwicklern einen vollständigen Satz an Crawler-Entwicklungstools bietet.

Big Data und Nutch

Die früheste Erwähnung des Begriffs Big Data geht auf Nutch zurück. Damals wurde Big Data zur Beschreibung großer Datenmengen verwendet, die stapelweise verarbeitet oder gleichzeitig analysiert werden mussten, um Websuchindizes zu aktualisieren.

Mittlerweile hat sich die Bedeutung von Big Data stark weiterentwickelt und die Branche hat die Merkmale von Big Data in vier „V“ zusammengefasst:

1. Volumen: Das Datenvolumen ist riesig.

2. Vielfalt: Es gibt viele Datentypen.

3. Wert: Geringe Wertdichte und hoher kommerzieller Wert.

4. Geschwindigkeit: Schnelle Verarbeitungsgeschwindigkeit.

Nutch und Hadoop sind unzertrennlich

Hadoop ist eine der Kerntechnologien von Big Data, und Nutch ist der Höhepunkt von Hadoop und die Quelle von Hadoop.

Nutch lernt Hadoop und ist die beste Datenquelle: Was tun, wenn keine Daten vorhanden sind? Fang mit Nutch!

Um Hadoop zu üben, bietet Nutch eine Fülle von Fällen: Was soll ich tun, wenn es keine praktischen Fälle gibt, nachdem ich Hadoops Map Reduce und HDFS erlernt habe? Lerne Nutch! Ein Großteil des Nutch-Codes wird mit Map Reduce und HDFS geschrieben. Wo gibt es bessere Hadoop-Anwendungsfälle als Nutch?

Durch das Erlernen von Nutch können Sie nicht nur die Entwicklungsgeschichte der Big-Data-Technologie verstehen, sondern auch die praktischen Fähigkeiten von Hadoop beherrschen. Von der Suchmaschine bis hin zu Hadoop zeigt Nutchs Reise den Charme der kontinuierlichen technologischen Weiterentwicklung und bietet uns wertvolle Erfahrungen und Ressourcen zum Erlernen der Big-Data-Technologie.

Expandieren

Zusätzliche Informationen