Мощный инструмент для сканирования Baidu
Упрощенный китайский | Традиционный китайский |
Начни быстро »
Посмотреть примеры · Сообщить о проблеме · Запросить требование
Поисковая система — очень мощный инструмент, и если другие инструменты можно будет интегрировать со многими мощными функциями поисковой системы, то эти инструменты станут еще более мощными. Но в настоящее время я не нашел сканер с открытым исходным кодом, который мог бы точно извлекать результаты поиска в поисковых системах. Итак, я написал этот проект для сканирования поисковой системы Baidu: BaiduSpider.
Уникальные возможности BaiduSpider:
Это экономит время при извлечении данных и является хорошим подспорьем для создания модели данных и обучения в аналогичных проектах глубокого обучения.
Точно извлекайте данные и удаляйте рекламу.
Результаты поиска большие и полные, поддерживают несколько типов поиска и типов возврата.
Конечно, ни один проект не идеален. Развитие любого проекта требует помощи сообщества. Вы можете помочь BaiduSpider прогрессу, опубликовав выпуск или отправив PR! :улыбка:
Некоторые полезные документы и инструменты перечислены в конце раздела «Благодарности».
Некоторые из основных библиотек зависимостей с открытым исходным кодом, используемых BaiduSpider.
Чтобы установить BaiduSpider, выполните следующие несколько шагов.
Перед установкой BaiduSpider убедитесь, что у вас установлен Python3.6+
:
$ python --version
Если версия ниже 3.6.0
, перейдите на официальный сайт Python, чтобы загрузить и установить Python.
pip
Пожалуйста, введите в командной строке:
$ pip install baiduspider
$ git clone [email protected]:BaiduSpider/BaiduSpider.git
# ...
$ python setup.py install
Вы можете использовать следующий код для получения результатов веб-поиска Baidu через BaiduSpider:
# 导入BaiduSpider
from baiduspider import BaiduSpider
from pprint import pprint
# 实例化BaiduSpider
spider = BaiduSpider ()
# 搜索网页
pprint ( spider . search_web ( query = 'Python' ))
Дополнительные примеры и конфигурации можно найти в документации.
Пожалуйста, обратитесь к разделу «Вступительные вопросы», чтобы узнать о последних планах проекта и известных проблемах.
Вклад сообщества — это душа проектов с открытым исходным кодом, а также способ для всего сообщества открытого исходного кода учиться, общаться и черпать вдохновение. Мы настоятельно приветствуем всех, кто примет участие в разработке и поддержании этого проекта.
Конкретные шаги для участия заключаются в следующем:
git checkout -b NewFeatures
)git commit -m 'Add some AmazingFeature'
)git push origin username/BaiduSpider
) Этот проект с открытым исходным кодом основан на GPL-V3
, подробности см. в разделе LICENSE
.
samzhangjy - @samzhangjy - [email protected]
Ссылка на проект: https://github.com/BaiduSpider/BaiduSpider
Этот проект предназначен только для учебных целей и не может использоваться в коммерческих целях или для сканирования больших объемов данных Baidu. Кроме того, в этом проекте используется авторское соглашение GPL-V3
, что означает, что любые другие проекты, включающие (использующие) этот проект, должны иметь открытый исходный код и указывать источник, а автор этого проекта не несет никаких юридических рисков, вызванных неправомерным использованием. При этом указывается, что нарушители несут ответственность за последствия на свой страх и риск.