Descarga de Apache: descarga del código fuente del rastreador web Apache Nutch v1.19

Rastreador web Apache Nutch v1.19

código fuente JAVA

1.19

Descargar

Nutch: Del motor de búsqueda al origen de Hadoop

Nutch es un proyecto de código abierto implementado en Java bajo Apache. Su historia de desarrollo es como la historia del desarrollo de la tecnología de big data, y ha sido testigo de la evolución de los motores de búsqueda a Hadoop.

La vida pasada y presente de Nutch

1. El origen de los motores de búsqueda

Nutch nació en agosto de 2002, originalmente como un proyecto de motor de búsqueda. Su fundador, Doug Cutting, es también fundador de conocidos proyectos de código abierto como Lucene, Hadoop y Avro. La aparición de Nutch marca que la tecnología de los motores de búsqueda ha entrado en una nueva etapa de desarrollo.

2. Del motor de búsqueda al rastreador web

A partir de la versión 1.2 de Nutch, Nutch ha evolucionado gradualmente hasta convertirse en un rastreador web centrado en rastrear datos de Internet. Esto sentó las bases para el desarrollo posterior de Hadoop.

3. Dos ramas: 1.X y 2.X

Durante el desarrollo de Nutch se diferenciaron dos ramas, 1.X y 2.X. La mayor diferencia es que la versión 2.X abstrae el almacenamiento de datos subyacente y admite múltiples tecnologías de almacenamiento subyacente, como HDFS.

4. Generaron cuatro proyectos de código abierto.

Durante la evolución de Nutch, se produjeron cuatro proyectos de código abierto Java: Hadoop, Tika, Gora y Crawler Commons.

Hadoop: Hadoop es un marco de procesamiento de big data de código abierto basado en Nutch y se ha convertido en el estándar de facto para el procesamiento de datos a gran escala.

Tika: Tika utiliza una variedad de proyectos de análisis de contenido de código abierto existentes para extraer metadatos y texto estructurado de archivos en múltiples formatos.

Gora: Gora admite la persistencia de big data en múltiples implementaciones de almacenamiento, como HBase y Cassandra.

Crawler Commons: Crawler Commons es un componente de rastreador web universal que proporciona a los desarrolladores un conjunto completo de herramientas de desarrollo de rastreadores.

Big Data y locura

La primera referencia al término big data se remonta a Nutch. En ese momento, los big data se utilizaban para describir grandes conjuntos de datos que debían procesarse por lotes o analizarse simultáneamente para actualizar los índices de búsqueda web.

Ahora, el significado de big data se ha desarrollado enormemente y la industria ha resumido las características de big data en cuatro "V":

1. Volumen: el volumen de datos es enorme.

2. Variedad: Existen muchos tipos de datos.

3. Valor: Baja densidad de valor y alto valor comercial.

4. Velocidad: velocidad de procesamiento rápida.

Nutch y Hadoop son inseparables

Hadoop es una de las tecnologías centrales de big data, y Nutch es la culminación de Hadoop y es la fuente de Hadoop.

Aprendiendo Hadoop, Nutch es la mejor fuente de datos: ¿Qué hacer si no hay datos? ¡Atrapa con Nutch!

Para practicar Hadoop, Nutch proporciona una gran cantidad de casos: después de aprender Map Reduce y HDFS de Hadoop, ¿qué debo hacer si no hay casos prácticos? ¡Aprende loco! Gran parte del código de Nutch está escrito utilizando Map Reduce y HDFS. ¿Dónde se pueden encontrar mejores casos de aplicaciones de Hadoop que Nutch?

Al aprender Nutch, no solo podrá comprender la historia del desarrollo de la tecnología de big data, sino también dominar las habilidades prácticas de Hadoop. Desde el motor de búsqueda hasta Hadoop, el viaje de Nutch muestra el encanto de la evolución tecnológica continua y nos proporciona valiosa experiencia y recursos para aprender tecnología de big data.

Expandir

Información adicional