Download do Apache - download do código-fonte do rastreador da web Apache Nutch v1.19

Rastreador da web Apache Nutch v1.19

Código fonte JAVA

1.19

Baixar

Nutch: Do mecanismo de busca à fonte do Hadoop

Nutch é um projeto de código aberto implementado em Java sob Apache. Sua história de desenvolvimento é como a história do desenvolvimento da tecnologia de big data, testemunhando a evolução dos motores de busca para o Hadoop.

A vida passada e presente de Nutch

1. A origem dos motores de busca

Nutch nasceu em agosto de 2002, originalmente como um projeto de mecanismo de busca. Seu fundador, Doug Cutting, também é fundador de projetos de código aberto conhecidos, como Lucene, Hadoop e Avro. O surgimento do Nutch marca que a tecnologia dos mecanismos de busca entrou em um novo estágio de desenvolvimento.

2. Do mecanismo de pesquisa ao rastreador da web

A partir da versão 1.2 do Nutch, o Nutch evoluiu gradualmente para um rastreador da web focado em rastrear dados da Internet. Isso lançou as bases para o desenvolvimento subsequente do Hadoop.

3. Dois ramos: 1.X e 2.X

Durante o desenvolvimento do Nutch, dois ramos foram diferenciados, 1.X e 2.X. A maior diferença é que a versão 2.X abstrai o armazenamento de dados subjacente e suporta múltiplas tecnologias de armazenamento subjacentes, como HDFS.

4. Gerou quatro projetos de código aberto

Durante a evolução do Nutch, foram produzidos quatro projetos Java de código aberto: Hadoop, Tika, Gora e Crawler Commons.

Hadoop: Hadoop é uma estrutura de processamento de big data de código aberto baseada em Nutch e se tornou o padrão de fato para processamento de dados em grande escala.

Tika: Tika usa uma variedade de projetos existentes de análise de conteúdo de código aberto para extrair metadados e texto estruturado de arquivos em vários formatos.

Gora: Gora oferece suporte à persistência de big data em múltiplas implementações de armazenamento, como HBase e Cassandra.

Crawler Commons: Crawler Commons é um componente universal de rastreador da web que fornece aos desenvolvedores um conjunto completo de ferramentas de desenvolvimento de rastreadores.

Big Data e Nutch

A referência mais antiga ao termo big data remonta a Nutch. Na época, big data era usado para descrever grandes conjuntos de dados que precisavam ser processados em lote ou analisados simultaneamente para atualizar os índices de pesquisa na web.

Agora, o significado do big data foi bastante desenvolvido e a indústria resumiu as características do big data em quatro "V":

1. Volume: O volume de dados é enorme.

2. Variedade: Existem muitos tipos de dados.

3. Valor: Baixa densidade de valor e alto valor comercial.

4. Velocidade: Velocidade de processamento rápida.

Nutch e Hadoop são inseparáveis

Hadoop é uma das principais tecnologias de big data, e Nutch é o culminar do Hadoop e é a fonte do Hadoop.

Aprendendo Hadoop, Nutch é a melhor fonte de dados: o que fazer se não houver dados? Pegue com Nutch!

Para praticar o Hadoop, o Nutch oferece vários casos: Depois de aprender o Map Reduce e o HDFS do Hadoop, o que devo fazer se não houver casos práticos? Aprenda Nutch! Muito do código do Nutch é escrito usando Map Reduce e HDFS. Onde você pode encontrar casos de aplicativos Hadoop melhores do que o Nutch?

Ao aprender Nutch, você não apenas compreenderá a história do desenvolvimento da tecnologia de big data, mas também dominará as habilidades práticas do Hadoop. Do mecanismo de busca ao Hadoop, a jornada de Nutch mostra o encanto da evolução tecnológica contínua e nos fornece experiência e recursos valiosos para aprender a tecnologia de big data.

Expandir

Informações adicionais