Beanbun est un framework d'exploration simple et extensible qui prend en charge la distribution, le mode démon et le mode normal. Le mode démon est basé sur Workerman et le téléchargeur est basé sur Guzzle.
https://github.com/kiddyuchina/Beanbun/blob/master/docs/chs/README.md
Je voudrais recommander un proxy global très utile que j'ai découvert récemment : SmartProxy
Un agent http professionnel à l'étranger avec 100 millions de ressources IP résidentielles réelles couvrant le monde entier, fournissant de manière stable une IP résidentielle 100 % native et prenant en charge les comptes sociaux, les plateformes de commerce électronique, la collecte de données réseau et d'autres services.
L'anonymat est très bon, le degré de déguisement est très élevé et le problème de restriction IP est facilement résolu.
Je me sens très bien après l'avoir testé.
Désormais le prix est réduit au printemps, l'agence résidentielle dynamique n'a que 35% de réduction !
Prend en charge les modes démon et normal (le mode démon ne prend en charge que les serveurs Linux)
Par défaut, guzzle est utilisé pour l'exploration
Support distribué
Prend en charge plusieurs méthodes de file d'attente telles que la mémoire et Redis
Prise en charge du filtrage URI personnalisé
Prend en charge les méthodes d'exploration en largeur et en profondeur
Conforme à la norme PSR-4
L'exploration des pages Web est divisée en plusieurs étapes, et chaque étape prend en charge des actions personnalisées (telles que l'ajout d'agents, la modification de l'agent utilisateur, etc.)
Le mécanisme d'extension flexible facilite la création de plug-ins pour le framework : files d'attente personnalisées, méthodes d'exploration personnalisées...
Beanbun peut être installé via composer.
$ composer require kiddyu/beanbun
Créez un fichier start.php avec le contenu suivant
<?phpuse BeanbunBeanbun;$beanbun = new Beanbun;$beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', ' http://www.950d.com/list-2.html', ];$beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page); };$beanbun->start();
Exécuter en ligne de commande
$ php start.php
Ensuite, vous pouvez voir les journaux capturés.
Plug-in d'extraction de données beanbun-parser https://github.com/kiddyuchina/beanbun-parser
Pour plus de détails, consultez la documentation