Nutch: Do mecanismo de busca à fonte do Hadoop
Nutch é um projeto de código aberto implementado em Java sob Apache. Sua história de desenvolvimento é como a história do desenvolvimento da tecnologia de big data, testemunhando a evolução dos motores de busca para o Hadoop.
A vida passada e presente de Nutch
Nutch nasceu em agosto de 2002, originalmente como um projeto de mecanismo de busca. Seu fundador, Doug Cutting, também é fundador de projetos de código aberto conhecidos, como Lucene, Hadoop e Avro. O surgimento do Nutch marca que a tecnologia dos mecanismos de busca entrou em um novo estágio de desenvolvimento.
A partir da versão 1.2 do Nutch, o Nutch evoluiu gradualmente para um rastreador da web focado em rastrear dados da Internet. Isso lançou as bases para o desenvolvimento subsequente do Hadoop.
Durante o desenvolvimento do Nutch, dois ramos foram diferenciados, 1.X e 2.X. A maior diferença é que a versão 2.X abstrai o armazenamento de dados subjacente e suporta múltiplas tecnologias de armazenamento subjacentes, como HDFS.
Durante a evolução do Nutch, foram produzidos quatro projetos Java de código aberto: Hadoop, Tika, Gora e Crawler Commons.
Hadoop: Hadoop é uma estrutura de processamento de big data de código aberto baseada em Nutch e se tornou o padrão de fato para processamento de dados em grande escala.
Tika: Tika usa uma variedade de projetos existentes de análise de conteúdo de código aberto para extrair metadados e texto estruturado de arquivos em vários formatos.
Gora: Gora oferece suporte à persistência de big data em múltiplas implementações de armazenamento, como HBase e Cassandra.
Crawler Commons: Crawler Commons é um componente universal de rastreador da web que fornece aos desenvolvedores um conjunto completo de ferramentas de desenvolvimento de rastreadores.
Big Data e Nutch
A referência mais antiga ao termo big data remonta a Nutch. Na época, big data era usado para descrever grandes conjuntos de dados que precisavam ser processados em lote ou analisados simultaneamente para atualizar os índices de pesquisa na web.
Agora, o significado do big data foi bastante desenvolvido e a indústria resumiu as características do big data em quatro "V":
1. Volume: O volume de dados é enorme.
2. Variedade: Existem muitos tipos de dados.
3. Valor: Baixa densidade de valor e alto valor comercial.
4. Velocidade: Velocidade de processamento rápida.
Nutch e Hadoop são inseparáveis
Hadoop é uma das principais tecnologias de big data, e Nutch é o culminar do Hadoop e é a fonte do Hadoop.
Aprendendo Hadoop, Nutch é a melhor fonte de dados: o que fazer se não houver dados? Pegue com Nutch!
Para praticar o Hadoop, o Nutch oferece vários casos: Depois de aprender o Map Reduce e o HDFS do Hadoop, o que devo fazer se não houver casos práticos? Aprenda Nutch! Muito do código do Nutch é escrito usando Map Reduce e HDFS. Onde você pode encontrar casos de aplicativos Hadoop melhores do que o Nutch?
Ao aprender Nutch, você não apenas compreenderá a história do desenvolvimento da tecnologia de big data, mas também dominará as habilidades práticas do Hadoop. Do mecanismo de busca ao Hadoop, a jornada de Nutch mostra o encanto da evolução tecnológica contínua e nos fornece experiência e recursos valiosos para aprender a tecnologia de big data.