Загрузка Apache – загрузка исходного кода веб-сканера Apache Nutch v1.19

Веб-сканер Apache Nutch v1.19

Исходный код JAVA

1.19

Скачать

Nutch: от поисковой системы к источнику Hadoop

Nutch — это проект с открытым исходным кодом, реализованный на Java под управлением Apache. Его история развития похожа на историю развития технологии больших данных, свидетельствуя об эволюции от поисковых систем к Hadoop.

Прошлая и настоящая жизнь Натча

1. Происхождение поисковых систем

Nutch родился в августе 2002 года, первоначально как проект поисковой системы. Ее основатель Дуг Каттинг также является основателем таких известных проектов с открытым исходным кодом, как Lucene, Hadoop и Avro. Появление Nutch знаменует собой переход технологии поисковых систем на новый этап развития.

2. От поисковой системы к веб-сканеру

Начиная с версии Nutch 1.2, Nutch постепенно превратился в веб-сканер, ориентированный на сканирование данных из Интернета. Это заложило основу для последующего развития Hadoop.

3. Две ветки: 1.Х и 2.Х.

В ходе развития Nutch были дифференцированы две ветви: 1.X и 2.X. Самое большое отличие состоит в том, что версия 2.X абстрагирует базовое хранилище данных и поддерживает несколько базовых технологий хранения, таких как HDFS.

4. Создано четыре проекта с открытым исходным кодом.

В ходе развития Nutch было создано четыре проекта Java с открытым исходным кодом: Hadoop, Tika, Gora и Crawler Commons.

Hadoop: Hadoop — это платформа обработки больших данных с открытым исходным кодом, основанная на Nutch, которая стала фактическим стандартом для крупномасштабной обработки данных.

Tika: Tika использует множество существующих проектов анализа контента с открытым исходным кодом для извлечения метаданных и структурированного текста из файлов в различных форматах.

Gora: Gora поддерживает сохранение больших данных в нескольких реализациях хранилища, таких как HBase и Cassandra.

Crawler Commons: Crawler Commons — это универсальный компонент веб-сканера, который предоставляет разработчикам полный набор инструментов для разработки сканеров.

Большие данные и натч

Самое раннее упоминание термина «большие данные» восходит к Натчу. В то время большие данные использовались для описания больших наборов данных, которые необходимо было одновременно обрабатывать или анализировать в пакетном режиме для обновления индексов веб-поиска.

Теперь значение больших данных значительно расширилось, и отрасль свела характеристики больших данных в четыре буквы «V»:

1. Объем. Объем данных огромен.

2. Разнообразие. Существует множество типов данных.

3. Ценность: низкая плотность стоимости и высокая коммерческая ценность.

4. Скорость: высокая скорость обработки.

Nutch и Hadoop неразделимы

Hadoop — одна из основных технологий больших данных, а Nutch — кульминация Hadoop и источник Hadoop.

Изучая Hadoop, Nutch — лучший источник данных: что делать, если данных нет? Лови с Натчем!

Чтобы попрактиковаться в Hadoop, Nutch предлагает множество примеров: что мне следует делать, если после изучения Hadoop Map уменьшает и HDFS, практических примеров нет? Учись Натчу! Большая часть кода Nutch написана с использованием Map Download и HDFS. Где можно найти лучшие примеры приложений Hadoop, чем Nutch?

Изучая Nutch, вы сможете не только понять историю развития технологий больших данных, но и освоить практические навыки работы с Hadoop. От поисковой системы до Hadoop путь Натча демонстрирует очарование непрерывной технологической эволюции и дает нам ценный опыт и ресурсы для изучения технологий больших данных.

Расширять

Дополнительная информация