Beanbun — это простая и расширяемая среда сканирования, которая поддерживает распространение, режим демона и обычный режим. Режим демона основан на Workerman, а загрузчик — на Guzzle.
https://github.com/kiddyuchina/Beanbun/blob/master/docs/chs/README.md
Я хотел бы порекомендовать очень полезный глобальный прокси, который я недавно обнаружил: SmartProxy.
Профессиональный зарубежный HTTP-агент со 100 миллионами реальных домашних IP-ресурсов, охватывающих весь мир. Гао Ан стабильно предоставляет 100% собственный домашний IP-адрес и поддерживает социальные учетные записи, платформы электронной коммерции, сбор сетевых данных и другие услуги.
Анонимность очень хорошая, степень маскировки очень высокая, проблема ограничения IP легко решается.
Я чувствую себя очень хорошо после тестирования.
Теперь весной цена снижена, а у динамичного жилого агентства скидка всего 35%!
Поддерживает как демонический, так и обычный режимы (режим демона поддерживает только серверы Linux)
По умолчанию для сканирования используется guzzle.
Поддержка распределена
Поддерживает несколько методов очереди, таких как память и Redis.
Поддержка пользовательской фильтрации URI
Поддерживает методы сканирования в ширину и в глубину.
Соответствует стандарту PSR-4
Сканирование веб-страниц разделено на несколько этапов, каждый из которых поддерживает пользовательские действия (например, добавление агентов, изменение пользовательского агента и т. д.).
Гибкий механизм расширения позволяет легко создавать плагины для платформы: собственные очереди, собственные методы сканирования...
Beanbun можно установить через композитор.
$ composer require kiddyu/beanbun
Создайте файл start.php со следующим содержимым.
<?phpuse BeanbunBeanbun;$beanbun = новый Beanbun;$beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', ' http://www.950d.com/list-2.html', ];$beanbun->afterDownloadPage = функция ($beanbun) { file_put_contents(__DIR__ . '/' . md5 ($beanbun->url), $beanbun->page); };$beanbun->start();
Выполнить в командной строке
$ php start.php
Далее вы можете просмотреть захваченные журналы.
Плагин извлечения данных beanbun-parser https://github.com/kiddyuchina/beanbun-parser
Для более подробной информации ознакомьтесь с документацией