Beanbun adalah kerangka crawler sederhana dan dapat diperluas yang mendukung distribusi, mode daemon, dan mode normal. Mode daemon didasarkan pada Workerman dan pengunduh didasarkan pada Guzzle.
https://github.com/kiddyuchina/Beanbun/blob/master/docs/chs/README.md
Saya ingin merekomendasikan proxy global yang sangat berguna yang baru-baru ini saya temukan: SmartProxy
Agen http luar negeri profesional dengan 100 juta sumber daya IP residensial nyata yang mencakup seluruh dunia. Gaoji secara stabil menyediakan 100% IP residensial asli dan mendukung akun sosial, platform e-commerce, pengumpulan data jaringan, dan layanan lainnya.
Anonimitasnya sangat baik, tingkat penyamarannya sangat tinggi, dan masalah pembatasan IP mudah diselesaikan.
Saya merasa sangat baik setelah mengujinya.
Harganya sekarang didiskon di musim semi, dan agen perumahan dinamis hanya mendapat diskon 35%!
Mendukung mode daemon dan normal (mode daemon hanya mendukung server Linux)
Secara default, guzzle digunakan untuk crawling
Dukungan didistribusikan
Mendukung beberapa metode antrian seperti memori dan Redis
Mendukung pemfilteran URI khusus
Mendukung metode perayapan yang mengutamakan luas dan mendalam
Mematuhi standar PSR-4
Perayapan halaman web dibagi menjadi beberapa langkah, dan setiap langkah mendukung tindakan khusus (seperti menambahkan agen, mengubah agen pengguna, dll.)
Mekanisme perluasan yang fleksibel memudahkan pembuatan plug-in untuk kerangka kerja: antrian khusus, metode perayapan khusus...
Beanbun dapat diinstal melalui composer.
$ composer require kiddyu/beanbun
Buat file start.php dengan konten berikut
<?phpuse BeanbunBeanbun;$beanbun = Beanbun baru;$beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', ' http://www.950d.com/list-2.html', ];$beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . '/' .md5($beanbun->url), $beanbun->page); };$beanbun->mulai();
Jalankan di baris perintah
$ php start.php
Selanjutnya Anda dapat melihat log yang diambil.
plugin ekstraksi data beanbun-parser https://github.com/kiddyuchina/beanbun-parser
Untuk lebih jelasnya, lihat dokumentasinya