Die neuesten Informationen über Nutch finden Sie auf unserer Website unter:
https://nutch.apache.org/
und unser Wiki unter:
https://cwiki.apache.org/confluence/display/NUTCH/Home
Um mit Nutch zu beginnen, lesen Sie das Tutorial:
https://cwiki.apache.org/confluence/display/NUTCH/NutchTutorial
Um einen Patch beizutragen, befolgen Sie diese Anweisungen (beachten Sie, dass die Installation von Hub nicht unbedingt erforderlich ist, aber empfohlen wird).
git clone https://github.com/apache/nutch.git
cd nutch
git checkout -b NUTCH-xxxx
git status
(stellen Sie sicher, dass angezeigt wird, welche Dateien Sie voraussichtlich bearbeiten werden)git add <files>
git commit -m "fix for NUTCH-xxx contributed by <your username>"
hub fork
(wenn der Hub nicht installiert ist, können Sie das Projekt über die Schaltfläche „Fork“ auf der Nutch-Github-Projektseite forken)git push -u <your git username> NUTCH-xxxx
hub pull-request
(wenn der Hub nicht installiert ist, befolgen Sie bitte die Anweisungen zum Erstellen eines Pull-Requests von einem Fork)Generieren Sie Eclipse-Projektdateien
ant eclipse
und folgen Sie den Anweisungen unter Vorhandene Projekte importieren.
Sie müssen nutch-site.xml vor der Ausführung konfigurieren. Stellen Sie sicher, dass Sie die Eigenschaften http.agent.name
und plugin.folders
hinzugefügt haben. Die Datei „plugin.folders“ verweist normalerweise auf <project_root>/build/plugins
.
Erstellen Sie nun eine Java-Anwendungskonfiguration, wählen Sie org.apache.nutch.crawl.Injector und fügen Sie zwei Pfade als Argumente hinzu. Das erste ist das crawldb-Verzeichnis, das zweite ist das URL-Verzeichnis, in dem der Injektor URLs lesen kann. Führen Sie nun Ihre Konfiguration aus.
Wenn immer noch die Meldung No plugins found on paths of property plugin.folders="plugins"
angezeigt wird, aktualisieren Sie die Datei „Plugin.folders“ in der Datei „nutch-default.xml“. Dies ist eine schnelle Lösung, sollte aber nicht verwendet werden.
Installieren Sie zunächst das IvyIDEA Plugin. Führen Sie dann ant eclipse
aus. Dadurch werden die erforderlichen .classpath- und .project-Dateien erstellt, damit Intellij das Projekt im nächsten Schritt importieren kann.
Wählen Sie in Intellij IDEA Datei > Neu > Projekt aus vorhandenen Quellen aus. Wählen Sie das Nutch-Home-Verzeichnis aus und klicken Sie auf „Öffnen“.
Wählen Sie im Bildschirm „Projekt importieren“ das Optionsfeld „Projekt aus externem Modell importieren“ und wählen Sie „Eclipse“. Klicken Sie auf „Erstellen“. Auf dem nächsten Bildschirm sollte das „Eclipse-Projektverzeichnis“ bereits auf den Nutch-Ordner eingestellt sein. Lassen Sie das Optionsfeld „Moduldateien in der Nähe von .classpath-Dateien erstellen“ aktiviert. Klicken Sie auf den nächsten Bildschirmen auf „Weiter“. Wählen Sie auf dem Projekt-SDK-Bildschirm Java 11 aus und klicken Sie auf „Erstellen“. Hinweis: Für jeden auf einem Mac mit einem von Homebrew installierten OpenJDK müssen Sie das Verzeichnis unter libexec verwenden: <openjdk11_directory>/libexec/openjdk.jdk/Contents/Home
.
Sobald das Projekt importiert ist, wird ein Popup mit der Meldung „Ant-Build-Skripte gefunden“ und „Frameworks erkannt – IvyIDEA Framework erkannt“ angezeigt. Klicken Sie auf „Importieren“. Wenn Sie das Popup nicht erhalten, würde ich empfehlen, die Schritte noch einmal durchzugehen, da dies von Zeit zu Zeit vorkommt. Es gibt ein weiteres Ant-Popup, das Sie auffordert, das Projekt zu konfigurieren. Klicken Sie NICHT auf „Konfigurieren“.
Um den Codestil zu importieren, gehen Sie zu Intellij IDEA > Einstellungen > Editor > Codestil > Java.
Wählen Sie im Dropdown-Menü „Schema“ „Projekt“ aus. Klicken Sie auf das Zahnradsymbol und wählen Sie „Schema importieren“ > „Eclipse XML-Datei“.
Wählen Sie die Datei „eclipse-format.xml“ aus und klicken Sie auf „Öffnen“. Aktivieren Sie im nächsten Bildschirm das Kontrollkästchen „Aktuelles Schema“ und klicken Sie auf „OK“.
Läuft in Intellij
Hinweis : Sie müssen einen Build manuell über ANT auslösen, um bei der Ausführung die neuesten aktualisierten Änderungen zu erhalten. Dies liegt daran, dass das Ant-Build-System vom Intellij-System getrennt ist.