Para obter as informações mais recentes sobre o Nutch, visite nosso website em:
https://nutch.apache.org/
e nosso wiki, em:
https://cwiki.apache.org/confluence/display/NUTCH/Home
Para começar a usar o Nutch, leia o tutorial:
https://cwiki.apache.org/confluence/display/NUTCH/NutchTutorial
Para contribuir com um patch, siga estas instruções (observe que a instalação do Hub não é estritamente necessária, mas é recomendada).
git clone https://github.com/apache/nutch.git
cd nutch
git checkout -b NUTCH-xxxx
git status
(certifique-se de que mostra quais arquivos você espera editar)git add <files>
git commit -m "fix for NUTCH-xxx contributed by <your username>"
hub fork
(se o hub não estiver instalado, você pode bifurcar o projeto usando o botão "fork" na página do projeto Nutch Github)git push -u <your git username> NUTCH-xxxx
hub pull-request
(se o hub não estiver instalado, siga as instruções sobre como criar uma solicitação pull a partir de um fork)Gerar arquivos de projeto Eclipse
ant eclipse
e siga as instruções em Importando projetos existentes.
Você deve configurar nutch-site.xml antes de executar. Certifique-se de ter adicionado as propriedades http.agent.name
e plugin.folders
. O plugin.folders normalmente aponta para <project_root>/build/plugins
.
Agora crie uma configuração de aplicativo Java, escolha org.apache.nutch.crawl.Injector, adicione dois caminhos como argumentos. O primeiro é o diretório crawldb, o segundo é o diretório URL onde o injetor pode ler URLs. Agora execute sua configuração.
Se ainda virmos No plugins found on paths of property plugin.folders="plugins"
, atualize plugin.folders no nutch-default.xml, esta é uma solução rápida, mas não deve ser usada.
Primeiro instale o plug-in IvyIDEA. então execute ant eclipse
. Isso criará os arquivos .classpath e .project necessários para que o Intellij possa importar o projeto na próxima etapa.
No Intellij IDEA, selecione Arquivo > Novo > Projeto de fontes existentes. Selecione o diretório inicial do nutch e clique em "Abrir".
Na tela "Importar Projeto", selecione o botão de opção "Importar projeto do modelo externo" e selecione "Eclipse". Clique em "Criar". Na próxima tela o "Diretório de projetos do Eclipse" já deve estar configurado para a pasta nutch. Deixe o botão de opção "Criar arquivos de módulo próximos aos arquivos .classpath" selecionado. Clique em “Avançar” nas próximas telas. Na tela do SDK do projeto selecione Java 11 e clique em “Criar”. NB Para qualquer pessoa em um Mac com um openjdk instalado em homebrew, você precisa usar o diretório em libexec : <openjdk11_directory>/libexec/openjdk.jdk/Contents/Home
.
Depois que o projeto for importado, você verá um pop-up dizendo "Ant build scripts found", "Frameworks detectados - IvyIDEA Framework detectado". Clique em "Importar". Se você não receber o pop-up, sugiro seguir as etapas novamente, pois isso acontece de tempos em tempos. Há outro pop-up Ant que solicita que você configure o projeto. NÃO clique em "Configurar".
Para importar o estilo de código, vá para Intellij IDEA > Preferências > Editor > Estilo de código > Java.
Para o menu suspenso Esquema, selecione "Projeto". Clique no ícone de engrenagem e selecione "Importar esquema" > "Arquivo Eclipse XML".
Selecione o arquivo eclipse-format.xml e clique em "Abrir". Na próxima tela marque a caixa de seleção "Esquema Atual" e clique em OK.
Executando no Intellij
Observação : você precisará acionar manualmente uma compilação por meio do ANT para obter as alterações atualizadas mais recentes durante a execução. Isso ocorre porque o sistema de construção do Ant é separado do Intellij.