Projeto de rastreador de compartilhamento de nuvem Baidu
Existem vários projetos de código aberto no github, mas eles fornecem apenas a parte do rastreador. Este projeto também adiciona módulos para salvar dados e estabelecer índices do elasticsearch com base no rastreador. Ele pode ser usado em ambientes de produção reais, mas o módulo da web ainda é. necessário.
Instalar
Instale node.js e pm2, o node é usado para executar rastreadores e programas de indexação e o pm2 é usado para gerenciar tarefas do nó.
Instale mysql e mongodb Mysql é usado para salvar dados do rastreador e mongodb é usado para salvar os dados compartilhados finais do Baidu Cloud. Esses dados estão no formato json e é mais conveniente salvá-los com mongodb.
gitclonehttps://github.com/callmelanmao/yunshare
cnpmi
Recomenda-se usar o comando cnpm para instalar dependências npm, o método de instalação mais simples
$npminstall-gcnpm--registry=https://registry.npm.taobao.org
Mais comandos para instalar o cnpm podem ser encontrados em npm.taobao.org.
inicialização
Os dados do rastreador (principalmente a lista de URLs) são salvos no banco de dados mysql e usam sequelizejs para mapeamento ORM. Os dados se parecem com yun. Você pode criar manualmente o banco de dados yun.
criadodatabaseyundefaultcharsetutf8
Altere a senha de acordo com suas necessidades Após concluir a configuração do mysql, você pode executar o seguinte comando.
golebabel
nodedist/script/init.js
Observe que você deve primeiro executar gulpbabel para compilar o código es6 em es5 e, em seguida, executar o script de inicialização para importar os dados iniciais. O arquivo de dados está em data/hot.json, que vem da página http://yun.baidu. .com/pcloud/friend/gethotuserlist? type=1&from=feed&start=0&limit=24&bdstoken=ac95ef31d3979f6ee707ef75cee9f5c5&clienttype=0&web=1 salvo.
Iniciar um projeto
Yunshare usa pm2 para gerenciamento de processos nodejs Execute pm2startprocess.json para iniciar todas as tarefas em segundo plano. Para verificar se as tarefas estão sendo executadas normalmente, você pode usar o comando pm2list.
Iniciar índice elasticsearch
O programa de índice elasticsearch também foi escrito. O arquivo de mapeamento está em data/mapping.json. Certifique-se de ter instalado a versão elasticsearch5.0 antes de executar o programa de índice, comando pm2startdist/elastic.js.
O endereço elasticsearch padrão é http://localhost:9200. Se precisar modificar este endereço, você pode modificá-lo em src/ElasticWorker.js. Após modificar qualquer código-fonte js, lembre-se de executar gulpbabel e reiniciar a tarefa pm2. a modificação não terá efeito.
Depois de concluir a configuração do elasticsearch, você também pode adicionar uma tarefa elástica em process.json para não precisar iniciar o programa de indexação separadamente.
Documentos relacionados
Modelo de rastreador nodejs simples e eficiente
DEMONSTRAÇÃO