Beanbun ist ein einfaches und erweiterbares Crawler-Framework, das die Verteilung, den Daemon-Modus und den Normalmodus unterstützt. Der Daemon-Modus basiert auf Workerman und der Downloader basiert auf Guzzle.
https://github.com/kiddyuchina/Beanbun/blob/master/docs/chs/README.md
Ich möchte einen sehr nützlichen globalen Proxy empfehlen, den ich kürzlich entdeckt habe: SmartProxy
Gao An ist ein professioneller http-Agent im Ausland mit 100 Millionen realen privaten IP-Ressourcen, der die ganze Welt abdeckt und soziale Konten, E-Commerce-Plattformen, Netzwerkdatenerfassung und andere Dienste unterstützt.
Die Anonymität ist sehr gut, der Verschleierungsgrad ist sehr hoch und das Problem der IP-Beschränkung lässt sich leicht lösen.
Ich fühle mich sehr gut, nachdem ich es getestet habe.
Jetzt ist der Preis im Frühjahr reduziert, die dynamische Wohnagentur hat nur 35 % Rabatt!
Unterstützt sowohl den Daemon- als auch den Normalmodus (der Daemon-Modus unterstützt nur Linux-Server)
Standardmäßig wird Guzzle zum Crawlen verwendet
Unterstützung verteilt
Unterstützt mehrere Warteschlangenmethoden wie Speicher und Redis
Unterstützt benutzerdefinierte URI-Filterung
Unterstützt die Crawling-Methoden „Breite zuerst“ und „Tiefe zuerst“.
Entspricht dem PSR-4-Standard
Das Crawlen von Webseiten ist in mehrere Schritte unterteilt, und jeder Schritt unterstützt benutzerdefinierte Aktionen (z. B. das Hinzufügen von Agenten, das Ändern von Benutzeragenten usw.).
Der flexible Erweiterungsmechanismus erleichtert die Erstellung von Plug-Ins für das Framework: benutzerdefinierte Warteschlangen, benutzerdefinierte Crawling-Methoden ...
Beanbun kann über Composer installiert werden.
$ composer require kiddyu/beanbun
Erstellen Sie eine Datei start.php mit folgendem Inhalt
<?phpuse BeanbunBeanbun;$beanbun = new Beanbun;$beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', ' http://www.950d.com/list-2.html', ];$beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page); };$beanbun->start();
In der Befehlszeile ausführen
$ php start.php
Als nächstes können Sie die erfassten Protokolle sehen.
Beanbun-Parser-Datenextraktions-Plug-in https://github.com/kiddyuchina/beanbun-parser
Weitere Einzelheiten finden Sie in der Dokumentation