Beanbun は、配布、デーモン モード、および通常モードをサポートするシンプルで拡張可能なクローラー フレームワークです。デーモン モードは Workerman に基づいており、ダウンローダーは Guzzle に基づいています。
https://github.com/kiddyuchina/Beanbun/blob/master/docs/chs/README.md
最近発見した非常に便利なグローバル プロキシをお勧めします: SmartProxy
Gaoji は、世界中をカバーする 1 億件の実際の住宅用 IP リソースを備えたプロの海外 http エージェントで、100% ネイティブの住宅用 IP を安定して提供し、ソーシャル アカウント、電子商取引プラットフォーム、ネットワーク データ収集などのサービスをサポートしています。
匿名性が非常に高く、偽装の度合いが非常に高く、IP制限の問題も簡単に解決できます。
テストした後はとても良い気分です。
今春は価格が割引されており、ダイナミック住宅代理店は35%オフです!
デーモン モードと通常モードの両方をサポート (デーモン モードは Linux サーバーのみをサポートします)
デフォルトでは、クロールには guzzle が使用されます
サポートの配布
メモリや Redis などの複数のキュー方式をサポート
カスタム URI フィルタリングのサポート
幅優先および深さ優先のクローリング方法をサポート
PSR-4規格に準拠
Web ページのクロールは複数のステップに分割されており、各ステップはカスタム アクション (エージェントの追加、ユーザー エージェントの変更など) をサポートしています。
柔軟な拡張メカニズムにより、フレームワーク用のプラグイン (カスタム キュー、カスタム クロール メソッドなど) を簡単に作成できます。
Beanbun は、composer を通じてインストールできます。
$ composer require kiddyu/beanbun
次の内容のファイル start.php を作成します。
<?phpuse BeanbunBeanbun;$beanbun = new Beanbun;$beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', ' http://www.950d.com/list-2.html'、 ];$beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page); };$beanbun->start();
コマンドラインで実行
$ php start.php
次に、キャプチャされたログを確認できます。
beanbun-parser データ抽出プラグイン https://github.com/kiddyuchina/beanbun-parser
詳細については、ドキュメントを参照してください