Nutch : Du moteur de recherche à la source de Hadoop
Nutch est un projet open source implémenté en Java sous Apache. Son historique de développement s'apparente à l'histoire du développement de la technologie big data, témoin de l'évolution des moteurs de recherche vers Hadoop.
La vie passée et présente de Nutch
Nutch est né en août 2002, à l'origine comme projet de moteur de recherche. Son fondateur, Doug Cutting, est également le fondateur de projets open source bien connus tels que Lucene, Hadoop et Avro. L’émergence de Nutch marque que la technologie des moteurs de recherche est entrée dans une nouvelle étape de développement.
À partir de la version 1.2 de Nutch, Nutch a progressivement évolué vers un robot d'exploration Web axé sur l'exploration des données provenant d'Internet. Cela a jeté les bases du développement ultérieur de Hadoop.
Lors du développement de Nutch, deux branches ont été différenciées, 1.X et 2.X. La plus grande différence est que la version 2.X fait abstraction du stockage de données sous-jacent et prend en charge plusieurs technologies de stockage sous-jacentes, telles que HDFS.
Au cours de l'évolution de Nutch, quatre projets open source Java ont été produits : Hadoop, Tika, Gora et Crawler Commons.
Hadoop : Hadoop est un framework open source de traitement de Big Data basé sur Nutch et est devenu le standard de facto pour le traitement de données à grande échelle.
Tika : Tika utilise une variété de projets d'analyse de contenu open source existants pour extraire des métadonnées et du texte structuré à partir de fichiers dans plusieurs formats.
Gora : Gora prend en charge la persistance du Big Data sur plusieurs implémentations de stockage, telles que HBase et Cassandra.
Crawler Commons : Crawler Commons est un composant de robot d'exploration Web universel qui fournit aux développeurs un ensemble complet d'outils de développement de robots.
Big Data et Nutch
La première référence au terme big data remonte à Nutch. À l’époque, le Big Data était utilisé pour décrire de grands ensembles de données qui devaient être traités par lots ou analysés simultanément pour mettre à jour les index de recherche sur le Web.
Aujourd'hui, la signification du big data a été considérablement développée et l'industrie a résumé les caractéristiques du big data en quatre « V » :
1. Volume : Le volume de données est énorme.
2. Variété : Il existe de nombreux types de données.
3. Valeur : Faible densité de valeur et valeur commerciale élevée.
4. Vélocité : Vitesse de traitement rapide.
Nutch et Hadoop sont inséparables
Hadoop est l'une des technologies de base du Big Data, et Nutch est le point culminant de Hadoop et la source de Hadoop.
Après avoir appris Hadoop, Nutch est la meilleure source de données : que faire s'il n'y a pas de données ? Attrapez avec Nutch !
Pour pratiquer Hadoop, Nutch propose une multitude de cas : après avoir appris Map Reduction et HDFS de Hadoop, que dois-je faire s’il n’y a pas de cas pratiques ? Apprenez Nutch! Une grande partie du code de Nutch est écrite à l'aide de Map Reduction et HDFS. Où pouvez-vous trouver de meilleurs cas d'application Hadoop que Nutch ?
En apprenant Nutch, vous pouvez non seulement comprendre l'histoire du développement de la technologie Big Data, mais également maîtriser les compétences pratiques de Hadoop. Du moteur de recherche à Hadoop, le parcours de Nutch montre le charme de l'évolution technologique continue et nous fournit une expérience et des ressources précieuses pour apprendre la technologie du Big Data.