"لقد استخدمت الزاحف "لسرقة" مليون مستخدم لـ Zhihu في يوم واحد، فقط لإثبات أن PHP هي أفضل لغة في العالم"
phpspider هو إطار عمل لتطوير الزاحف. باستخدام إطار العمل هذا، لا تحتاج إلى فهم تنفيذ التكنولوجيا الأساسية للزاحف. يتم حظر الزاحف بواسطة موقع الويب، وتتطلب بعض مواقع الويب تسجيل الدخول أو التعرف على رمز التحقق للزحف. باستخدام بضعة أسطر فقط من كود PHP، يمكنك إنشاء الزاحف الخاص بك. باستخدام مكتبة فئة Worker متعددة العمليات المغلفة بإطار العمل، يكون الكود أبسط وكفاءة التنفيذ أعلى وأسرع.
توجد بعض قواعد الزحف لمواقع ويب محددة في الدليل التجريبي، طالما أن لديك بيئة PHP مثبتة، فيمكن تشغيل التعليمات البرمجية مباشرة في سطر الأوامر. يمكن للمطورين المهتمين ببرامج الزحف الانضمام إلى مجموعة QQ لمناقشة: 147824717.
لنأخذ الموسوعة المحرجة كمثال لنرى كيف يبدو الزاحف الخاص بنا:
$configs = array( 'name' => '糗事百科', 'domains' => array( 'qiushibaike.com', 'www.qiushibaike.com' ), 'scan_urls' => array( 'http://www.qiushibaike.com/' ), 'content_url_regexes' => array( "http://www.qiushibaike.com/article/d+" ), 'list_url_regexes' => array( "http://www.qiushibaike.com/8hr/page/d+?s=d+" ), 'fields' => array( array( // 抽取内容页的文章内容 'name' => "article_content", 'selector' => "//*[@id='single-next-link']", 'required' => true ), array( // 抽取内容页的文章作者 'name' => "article_author", 'selector' => "//div[contains(@class,'author')]//h2", 'required' => true ), ), ); $spider = new phpspider($configs); $spider->start();
الإطار العام للزاحف هو مثل هذا أولاً، يتم تعريف مصفوفة $configs، والتي تحدد بعض المعلومات حول موقع الويب الذي سيتم الزحف إليه، ثم يتم تكوينه وتكوينه عن طريق استدعاء $spider = new phpspider($configs);
$spider->start();
لمزيد من التفاصيل، انتقل إلى:
وثائق التطوير