有关 Nutch 的最新信息,请访问我们的网站:
https://nutch.apache.org/
以及我们的维基百科,网址为:
https://cwiki.apache.org/confluence/display/NUTCH/Home
要开始使用 Nutch,请阅读教程:
https://cwiki.apache.org/confluence/display/NUTCH/NutchTutorial
要贡献补丁,请按照以下说明进行操作(请注意,安装 Hub 不是严格要求的,但建议安装)。
git clone https://github.com/apache/nutch.git
cd nutch
git checkout -b NUTCH-xxxx
git status
(确保它显示您希望编辑的文件)git add <files>
git commit -m "fix for NUTCH-xxx contributed by <your username>"
hub fork
(如果未安装hub,您可以使用Nutch Github项目页面上的“fork”按钮来fork该项目)git push -u <your git username> NUTCH-xxxx
hub pull-request
(如果未安装 hub,请按照如何从 fork 创建 pull-request 的说明进行操作)生成 Eclipse 项目文件
ant eclipse
并按照导入现有项目中的说明进行操作。
您必须在运行之前配置 nutch-site.xml。确保您已添加http.agent.name
和plugin.folders
属性。 plugin.folders 通常指向<project_root>/build/plugins
。
现在创建一个Java应用程序配置,选择org.apache.nutch.crawl.Injector,添加两个路径作为参数。第一个是crawldb目录,第二个是URL目录,注入器可以在其中读取url。现在运行您的配置。
如果我们仍然看到No plugins found on paths of property plugin.folders="plugins"
,请更新nutch-default.xml中的plugin.folders,这是一个快速修复,但不应该使用。
首先安装IvyIDEA插件。然后运行ant eclipse
。这将创建必要的 .classpath 和 .project 文件,以便 Intellij 可以在下一步中导入项目。
在 Intellij IDEA 中,选择“文件”>“新建”>“来自现有源的项目”。选择 nutch 主目录并单击“打开”。
在“导入项目”屏幕上,选择“从外部模型导入项目”单选按钮,然后选择“Eclipse”。单击“创建”。在下一个屏幕上,“Eclipse 项目目录”应该已设置为 nutch 文件夹。保持选中“在 .classpath 文件附近创建模块文件”单选按钮。在接下来的屏幕上单击“下一步”。在项目 SDK 屏幕上选择 Java 11 并单击“创建”。注意:对于使用自制软件安装 openjdk 的 Mac 上的任何人,您需要使用libexec下的目录: <openjdk11_directory>/libexec/openjdk.jdk/Contents/Home
。
导入项目后,您将看到一个弹出窗口,显示“找到 Ant 构建脚本”、“检测到框架 - 检测到 IvyIDEA 框架”。单击“导入”。如果您没有看到弹出窗口,我建议您再次执行这些步骤,因为这种情况时常发生。还有另一个 Ant 弹出窗口要求您配置项目。不要单击“配置”。
要导入代码样式,请转至 Intellij IDEA > 首选项 > 编辑器 > 代码样式 > Java。
对于方案下拉列表,选择“项目”。单击齿轮图标并选择“导入方案”>“Eclipse XML 文件”。
选择 eclipse-format.xml 文件并单击“打开”。在下一个屏幕上,选中“当前方案”复选框并单击“确定”。
在 Intellij 中运行
注意:您需要通过 ANT 手动触发构建,才能在运行时获取最新的更新更改。这是因为 ant 构建系统与 Intellij 系统是分开的。