Beanbun é uma estrutura de rastreador simples e extensível que suporta distribuição, modo daemon e modo normal. O modo daemon é baseado no Workerman e o downloader é baseado no Guzzle.
https://github.com/kiddyuchina/Beanbun/blob/master/docs/chs/README.md
Gostaria de recomendar um proxy global muito útil que descobri recentemente: SmartProxy
Um agente http profissional no exterior com 100 milhões de recursos IP residenciais reais cobrindo o mundo de forma estável fornece IP residencial 100% nativo e oferece suporte a contas sociais, plataformas de comércio eletrônico, coleta de dados de rede e outros serviços.
O anonimato é muito bom, o grau de disfarce é muito alto e o problema de restrição de IP é facilmente resolvido.
Me sinto muito bem depois de testá-lo.
O preço agora tem desconto na primavera, e a agência residencial dinâmica tem apenas 35% de desconto!
Suporta os modos daemon e normal (o modo daemon suporta apenas servidores Linux)
Por padrão, o guzzle é usado para rastreamento
Suporte distribuído
Suporta vários métodos de fila, como memória e Redis
Suporta filtragem de URI personalizada
Suporta métodos de rastreamento em profundidade e em profundidade
Cumprir com o padrão PSR-4
O rastreamento de páginas da web é dividido em várias etapas, e cada etapa oferece suporte a ações personalizadas (como adicionar agentes, modificar o agente do usuário, etc.)
O mecanismo de expansão flexível facilita a criação de plug-ins para a estrutura: filas personalizadas, métodos de rastreamento personalizados...
Beanbun pode ser instalado através do compositor.
$ composer require kiddyu/beanbun
Crie um arquivo start.php com o seguinte conteúdo
<?phpuse BeanbunBeanbun;$beanbun = new Beanbun;$beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', ' http://www.950d.com/list-2.html', ];$beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page); };$beanbun->start();
Executar na linha de comando
$ php start.php
A seguir você pode ver os logs capturados.
Plug-in de extração de dados beanbun-parser https://github.com/kiddyuchina/beanbun-parser
Para mais detalhes, confira a documentação