Beanbun เป็นเฟรมเวิร์กของโปรแกรมรวบรวมข้อมูลที่เรียบง่ายและขยายได้ซึ่งรองรับการแจกจ่าย โหมด daemon และโหมดปกติ โหมด daemon จะขึ้นอยู่กับ Workerman และตัวดาวน์โหลดจะขึ้นอยู่กับ Guzzle
https://github.com/kiddyuchina/Beanbun/blob/master/docs/chs/README.md
ฉันอยากจะแนะนำพร็อกซีสากลที่มีประโยชน์มากที่ฉันเพิ่งค้นพบ: SmartProxy
ตัวแทน http มืออาชีพในต่างประเทศที่มีทรัพยากร IP ที่อยู่อาศัยจริง 100 ล้านรายการทั่วโลก Gao An ให้บริการ IP ที่อยู่อาศัยดั้งเดิม 100% และรองรับบัญชีโซเชียล แพลตฟอร์มอีคอมเมิร์ซ การรวบรวมข้อมูลเครือข่าย และบริการอื่น ๆ
การไม่เปิดเผยตัวตนนั้นดีมาก ระดับการปลอมตัวนั้นสูงมาก และปัญหาการจำกัด IP ก็แก้ไขได้อย่างง่ายดาย
ฉันรู้สึกดีมากหลังจากการทดสอบ
ตอนนี้ราคาลดราคาในฤดูใบไม้ผลิ หน่วยงานที่อยู่อาศัยแบบไดนามิกลดราคาเพียง 35% เท่านั้น!
รองรับทั้งโหมด daemon และโหมดปกติ (โหมด daemon รองรับเฉพาะเซิร์ฟเวอร์ Linux เท่านั้น)
ตามค่าเริ่มต้น guzzle จะถูกใช้สำหรับการรวบรวมข้อมูล
กระจายการสนับสนุน
รองรับวิธีการคิวหลายวิธีเช่นหน่วยความจำและ Redis
รองรับการกรอง URI ที่กำหนดเอง
รองรับวิธีการรวบรวมข้อมูลแบบกว้างก่อนและลึกก่อน
ปฏิบัติตามมาตรฐาน PSR-4
การรวบรวมข้อมูลหน้าเว็บแบ่งออกเป็นหลายขั้นตอน และแต่ละขั้นตอนรองรับการดำเนินการแบบกำหนดเอง (เช่น การเพิ่มตัวแทน การแก้ไขตัวแทนผู้ใช้ ฯลฯ)
กลไกส่วนขยายที่ยืดหยุ่นทำให้ง่ายต่อการสร้างปลั๊กอินสำหรับเฟรมเวิร์ก: คิวแบบกำหนดเอง วิธีการรวบรวมข้อมูลแบบกำหนดเอง...
Beanbun สามารถติดตั้งผ่านผู้แต่งได้
$ composer require kiddyu/beanbun
สร้างไฟล์ start.php โดยมีเนื้อหาดังต่อไปนี้
<?phpuse BeanbunBeanbun;$beanbun = Beanbun ใหม่;$beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', ' http://www.950d.com/list-2.html', ];$beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->หน้า); };$beanbun->เริ่มต้น();
ดำเนินการในบรรทัดคำสั่ง
$ php start.php
ต่อไปคุณจะเห็นบันทึกที่บันทึกไว้
ปลั๊กอินการแยกข้อมูล beanbun-parser https://github.com/kiddyuchina/beanbun-parser
สำหรับรายละเอียดเพิ่มเติม โปรดดูเอกสารประกอบ