"Saya menggunakan crawler untuk" mencuri "satu juta pengguna Zhihu dalam satu hari, hanya untuk membuktikan bahwa PHP adalah bahasa terbaik di dunia"
phpspider adalah kerangka pengembangan perayap. Dengan menggunakan kerangka kerja ini, Anda tidak perlu memahami penerapan teknologi yang mendasari perayap. Perayap diblokir oleh situs web, dan beberapa situs web memerlukan login atau pengenalan kode verifikasi untuk dirayapi. Hanya dengan beberapa baris kode PHP, Anda dapat membuat crawler Anda sendiri. Menggunakan pustaka kelas Pekerja multi-proses yang dienkapsulasi oleh kerangka kerja, kodenya lebih sederhana dan efisiensi eksekusinya lebih tinggi dan lebih cepat.
Ada beberapa aturan perayapan untuk situs web tertentu di direktori demo Selama Anda menginstal lingkungan PHP, kode dapat dijalankan langsung di baris perintah. Pengembang yang tertarik dengan crawler dapat bergabung dengan grup QQ untuk berdiskusi: 147824717.
Mari kita ambil Ensiklopedia Cerita Memalukan sebagai contoh untuk melihat tampilan crawler kita:
$configs = array( 'name' => '糗事百科', 'domains' => array( 'qiushibaike.com', 'www.qiushibaike.com' ), 'scan_urls' => array( 'http://www.qiushibaike.com/' ), 'content_url_regexes' => array( "http://www.qiushibaike.com/article/d+" ), 'list_url_regexes' => array( "http://www.qiushibaike.com/8hr/page/d+?s=d+" ), 'fields' => array( array( // 抽取内容页的文章内容 'name' => "article_content", 'selector' => "//*[@id='single-next-link']", 'required' => true ), array( // 抽取内容页的文章作者 'name' => "article_author", 'selector' => "//div[contains(@class,'author')]//h2", 'required' => true ), ), ); $spider = new phpspider($configs); $spider->start();
Kerangka keseluruhan crawler adalah seperti ini. Pertama, array $configs ditentukan, yang menetapkan beberapa informasi tentang situs web yang akan dirayapi. Kemudian, dikonfigurasi dan dikonfigurasi dengan memanggil $spider = new phpspider($configs);
$spider->start();
Mulai perayap.
Untuk lebih jelasnya, kunjungi:
Dokumentasi pengembangan