Nutch: от поисковой системы к источнику Hadoop
Nutch — это проект с открытым исходным кодом, реализованный на Java под управлением Apache. Его история развития похожа на историю развития технологии больших данных, свидетельствуя об эволюции от поисковых систем к Hadoop.
Прошлая и настоящая жизнь Натча
Nutch родился в августе 2002 года, первоначально как проект поисковой системы. Ее основатель Дуг Каттинг также является основателем таких известных проектов с открытым исходным кодом, как Lucene, Hadoop и Avro. Появление Nutch знаменует собой переход технологии поисковых систем на новый этап развития.
Начиная с версии Nutch 1.2, Nutch постепенно превратился в веб-сканер, ориентированный на сканирование данных из Интернета. Это заложило основу для последующего развития Hadoop.
В ходе развития Nutch были дифференцированы две ветви: 1.X и 2.X. Самое большое отличие состоит в том, что версия 2.X абстрагирует базовое хранилище данных и поддерживает несколько базовых технологий хранения, таких как HDFS.
В ходе развития Nutch было создано четыре проекта Java с открытым исходным кодом: Hadoop, Tika, Gora и Crawler Commons.
Hadoop: Hadoop — это платформа обработки больших данных с открытым исходным кодом, основанная на Nutch, которая стала фактическим стандартом для крупномасштабной обработки данных.
Tika: Tika использует множество существующих проектов анализа контента с открытым исходным кодом для извлечения метаданных и структурированного текста из файлов в различных форматах.
Gora: Gora поддерживает сохранение больших данных в нескольких реализациях хранилища, таких как HBase и Cassandra.
Crawler Commons: Crawler Commons — это универсальный компонент веб-сканера, который предоставляет разработчикам полный набор инструментов для разработки сканеров.
Большие данные и натч
Самое раннее упоминание термина «большие данные» восходит к Натчу. В то время большие данные использовались для описания больших наборов данных, которые необходимо было одновременно обрабатывать или анализировать в пакетном режиме для обновления индексов веб-поиска.
Теперь значение больших данных значительно расширилось, и отрасль свела характеристики больших данных в четыре буквы «V»:
1. Объем. Объем данных огромен.
2. Разнообразие. Существует множество типов данных.
3. Ценность: низкая плотность стоимости и высокая коммерческая ценность.
4. Скорость: высокая скорость обработки.
Nutch и Hadoop неразделимы
Hadoop — одна из основных технологий больших данных, а Nutch — кульминация Hadoop и источник Hadoop.
Изучая Hadoop, Nutch — лучший источник данных: что делать, если данных нет? Лови с Натчем!
Чтобы попрактиковаться в Hadoop, Nutch предлагает множество примеров: что мне следует делать, если после изучения Hadoop Map уменьшает и HDFS, практических примеров нет? Учись Натчу! Большая часть кода Nutch написана с использованием Map Download и HDFS. Где можно найти лучшие примеры приложений Hadoop, чем Nutch?
Изучая Nutch, вы сможете не только понять историю развития технологий больших данных, но и освоить практические навыки работы с Hadoop. От поисковой системы до Hadoop путь Натча демонстрирует очарование непрерывной технологической эволюции и дает нам ценный опыт и ресурсы для изучения технологий больших данных.