Beanbun es un marco de rastreo simple y extensible que admite distribución, modo demonio y modo normal. El modo demonio se basa en Workerman y el descargador se basa en Guzzle.
https://github.com/kiddyuchina/Beanbun/blob/master/docs/chs/README.md
Me gustaría recomendar un proxy global muy útil que descubrí recientemente: SmartProxy
Gaoji, un agente http profesional en el extranjero con 100 millones de recursos de IP residenciales reales que cubren el mundo, proporciona de manera estable IP residencial 100% nativa y admite cuentas sociales, plataformas de comercio electrónico, recopilación de datos de red y otros servicios.
El anonimato es muy bueno, el grado de ocultamiento es muy alto y el problema de la restricción de IP se resuelve fácilmente.
Me siento muy bien después de probarlo.
¡El precio ahora tiene un descuento en primavera y la dinámica agencia residencial tiene solo un 35% de descuento!
Admite modos demonio y normal (el modo demonio solo admite servidores Linux)
Por defecto, guzzle se usa para gatear.
Soporte distribuido
Admite múltiples métodos de cola, como memoria y Redis
Admite filtrado de URI personalizado
Admite métodos de rastreo primero en amplitud y en profundidad
Cumple con el estándar PSR-4
El rastreo de páginas web se divide en varios pasos y cada paso admite acciones personalizadas (como agregar agentes, modificar agente de usuario, etc.)
El mecanismo de expansión flexible facilita la creación de complementos para el marco: colas personalizadas, métodos de rastreo personalizados...
Beanbun se puede instalar a través del compositor.
$ composer require kiddyu/beanbun
Crea un archivo start.php con el siguiente contenido
<?phpuse BeanbunBeanbun;$beanbun = nuevo Beanbun;$beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', ' http://www.950d.com/list-2.html', ];$beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->página); };$beanbun->start();
Ejecutar en línea de comando
$ php start.php
A continuación puede ver los registros capturados.
Complemento de extracción de datos beanbun-parser https://github.com/kiddyuchina/beanbun-parser
Para más detalles, consulte la documentación.