有關 Nutch 的最新信息,請訪問我們的網站:
https://nutch.apache.org/
以及我們的維基百科,網址為:
https://cwiki.apache.org/confluence/display/NUTCH/Home
要開始使用 Nutch,請閱讀教學:
https://cwiki.apache.org/confluence/display/NUTCH/NutchTutorial
要貢獻補丁,請按照以下說明進行操作(請注意,安裝 Hub 不是嚴格要求的,但建議安裝)。
git clone https://github.com/apache/nutch.git
cd nutch
git checkout -b NUTCH-xxxx
git status
(確保它顯示您想要編輯的檔案)git add <files>
git commit -m "fix for NUTCH-xxx contributed by <your username>"
hub fork
(如果未安裝hub,您可以使用Nutch Github專案頁面上的「fork」按鈕來fork該專案)git push -u <your git username> NUTCH-xxxx
hub pull-request
(如果未安裝 hub,請依照如何從 fork 建立 pull-request 的說明進行操作)產生 Eclipse 專案文件
ant eclipse
並按照導入現有項目中的說明進行操作。
您必須在運行之前配置 nutch-site.xml。確保您已新增http.agent.name
和plugin.folders
屬性。 plugin.folders 通常指向<project_root>/build/plugins
。
現在建立一個Java應用程式配置,選擇org.apache.nutch.crawl.Injector,新增兩個路徑作為參數。第一個是crawldb目錄,第二個是URL目錄,注入器可以在其中讀取url。現在運行您的配置。
如果我們仍然看到No plugins found on paths of property plugin.folders="plugins"
,請更新nutch-default.xml中的plugin.folders,這是一個快速修復,但不應該使用。
首先安裝IvyIDEA插件。然後運行ant eclipse
。這將建立必要的 .classpath 和 .project 文件,以便 Intellij 可以在下一步中匯入專案。
在 Intellij IDEA 中,選擇「檔案」>「新建」>「來自現有來源的專案」。選擇 nutch 主目錄並點選「開啟」。
在「匯入專案」畫面上,選擇「從外部模型匯入專案」單選按鈕,然後選擇「Eclipse」。按一下“建立”。在下一個畫面上,「Eclipse 專案目錄」應該已設定為 nutch 資料夾。保持選取「在 .classpath 檔案附近建立模組檔案」單選按鈕。在接下來的畫面上按一下「下一步」。在專案 SDK 畫面上選擇 Java 11 並按一下「建立」。注意:對於使用自製軟體安裝 openjdk 的 Mac 上的任何人,您需要使用libexec下的目錄: <openjdk11_directory>/libexec/openjdk.jdk/Contents/Home
。
匯入專案後,您將看到一個彈出窗口,顯示「找到 Ant 建置腳本」、「偵測到框架 - 偵測到 IvyIDEA 框架」。按一下“導入”。如果您沒有看到彈出窗口,我建議您再次執行這些步驟,因為這種情況時常發生。還有另一個 Ant 彈出視窗要求您配置項目。不要點選“配置”。
若要匯入程式碼樣式,請前往 Intellij IDEA > 首選項 > 編輯器 > 程式碼樣式 > Java。
對於方案下拉列表,選擇「項目」。點擊齒輪圖示並選擇“導入方案”>“Eclipse XML 檔案”。
選擇 eclipse-format.xml 檔案並按一下「開啟」。在下一個畫面上,選取「目前方案」複選框並按一下「確定」。
在 Intellij 中運行
注意:您需要透過 ANT 手動觸發構建,才能在運行時取得最新的更新變更。這是因為 ant 建置系統與 Intellij 系統是分開的。