Para obtener la información más reciente sobre Nutch, visite nuestro sitio web en:
https://nutch.apache.org/
y nuestra wiki, en:
https://cwiki.apache.org/confluence/display/NUTCH/Home
Para comenzar a usar Nutch, lea el Tutorial:
https://cwiki.apache.org/confluence/display/NUTCH/NutchTutorial
Para contribuir con un parche, siga estas instrucciones (tenga en cuenta que no es estrictamente necesario instalar Hub, pero se recomienda).
git clone https://github.com/apache/nutch.git
cd nutch
git checkout -b NUTCH-xxxx
git status
(asegúrate de que muestre qué archivos esperabas editar)git add <files>
git commit -m "fix for NUTCH-xxx contributed by <your username>"
hub fork
(si el concentrador no está instalado, puede bifurcar el proyecto usando el botón "bifurcación" en la página del proyecto Nutch Github)git push -u <your git username> NUTCH-xxxx
hub pull-request
(si el concentrador no está instalado, siga las instrucciones sobre cómo crear una solicitud de extracción desde una bifurcación)Generar archivos de proyecto Eclipse
ant eclipse
y siga las instrucciones en Importación de proyectos existentes.
Debe configurar nutch-site.xml antes de ejecutarlo. Asegúrese de haber agregado las propiedades http.agent.name
y plugin.folders
. Las carpetas plugin.normalmente apuntan a <project_root>/build/plugins
.
Ahora cree una configuración de aplicación Java, elija org.apache.nutch.crawl.Injector, agregue dos rutas como argumentos. El primero es el directorio crawldb, el segundo es el directorio URL donde el inyector puede leer las URL. Ahora ejecute su configuración.
Si aún vemos el No plugins found on paths of property plugin.folders="plugins"
, actualice plugin.folders en nutch-default.xml, esta es una solución rápida, pero no debe usarse.
Primero instale el complemento IvyIDEA. luego ejecuta ant eclipse
. Esto creará los archivos .classpath y .project necesarios para que Intellij pueda importar el proyecto en el siguiente paso.
En Intellij IDEA, seleccione Archivo > Nuevo > Proyecto de fuentes existentes. Seleccione el directorio de inicio de Nutch y haga clic en "Abrir".
En la pantalla "Importar proyecto", seleccione el botón de opción "Importar proyecto desde modelo externo" y seleccione "Eclipse". Haga clic en "Crear". En la siguiente pantalla, el "directorio de proyectos de Eclipse" ya debería estar configurado en la carpeta nutch. Deje seleccionado el botón de opción "Crear archivos de módulo cerca de archivos .classpath". Haga clic en "Siguiente" en las siguientes pantallas. En la pantalla del SDK del proyecto, seleccione Java 11 y haga clic en "Crear". NB Para cualquier persona en una Mac con un openjdk instalado en homebrew, debe usar el directorio en libexec : <openjdk11_directory>/libexec/openjdk.jdk/Contents/Home
.
Una vez importado el proyecto, verá una ventana emergente que dice "Se encontraron scripts de compilación Ant", "Frameworks detectados - IvyIDEA Framework detectado". Haga clic en "Importar". Si no aparece la ventana emergente, le sugiero que siga los pasos nuevamente, ya que esto sucede de vez en cuando. Hay otra ventana emergente Ant que le pide que configure el proyecto. NO haga clic en "Configurar".
Para importar el estilo de código, vaya a Intellij IDEA > Preferencias > Editor > Estilo de código > Java.
Para el menú desplegable Esquema, seleccione "Proyecto". Haga clic en el ícono de ajustes y seleccione "Importar esquema" > "Archivo XML de Eclipse".
Seleccione el archivo eclipse-format.xml y haga clic en "Abrir". En la siguiente pantalla, marque la casilla de verificación "Esquema actual" y presione Aceptar.
Corriendo en Intellij
Nota : deberá activar manualmente una compilación a través de ANT para obtener los últimos cambios actualizados durante la ejecución. Esto se debe a que el sistema de construcción de hormigas está separado del de Intellij.