Это веб -скребок для Sina Weibo Search по ключевым словам
Существуют некоторые скребки Sina Weibo. Однако все они реализованы с Weibo API. Sina Weibo ограничивает объем данных, которые можно получить каждый час, день и месяц, если используется API. Это веб -скребок для поиска Sina Weibo по ключевым словам, реализованным чистым URL -кодировкой, чтобы он моделировал реальный браузер, перемещается на страницу и получает доступ к данным. Это избавляется от пределов. Вполне возможно, что Weibo позволит вам ввести код проверки, чтобы доказать, что вы не машина, но это не часто.
Сючжоу Инь. Личный веб -сайт: www.xuzhouyin.com
Открыть терминал и перейдите в каталог, где вы хотите хранить программу, затем введите git clone address
для загрузки программы
pip install selenium
pip install time
pip install bs4
pip install urllib
pip install datetime
pip install unicodecsv
Sina Weibo ограничивает разрешение функции поиска, которую подписали только пользователи, способна использовать расширенный поиск (например, поиск с определенному периоду времени). Поэтому, пожалуйста, зарегистрируйтесь на учетную запись Sina Weibo и войдите через браузер Firefox (так что Firefox автоматически войдет в следующий раз). Затем найдите путь профиля Firefox (см. Где хранится профиль Firefox). и замените путь в строке 49 в scraper.py
.
Файл query.txt
предназначен для хранения всех запросов. Пожалуйста, добавьте запросы в форму keyword;eventDate;startDate;endDate;pageofResult
, один запрос на строку. Sina Weibo не поддерживает функцию «прокрутки внизу, чтобы просмотреть больше» в поисках. Вместо этого он разделяет результаты запроса на страницы. И Sina ограничивает страницу результатов 50. Таким образом, для каждого запроса пользователи могут получить только 50 страниц результатов. И каждая страница содержит 20 сообщений. Следовательно, для каждого поиска можно получить максимум 1000 постов. Тем не менее, это может быть так, что из запроса насчитывается менее 1000 постов. Поэтому, пожалуйста, проверьте максимальное количество страниц, которые содержат все результаты запроса .
Запустите программу, набрав python scraper.py
Browser Firefox будет выполнен, а также Autimaty перемещается на страницу поиска с ключевым словом.
Результаты будут в output
папке в формате CSV. Каждый запрос генерирует один файл CSV. Excel имеет проблемы с отображением китайских иероглиф. Таким образом, просмотр через другой текстовый редактор лучше (если вы используете Mac, вы можете использовать номера для открытия файлов CSV).
На данный момент эта программа поддерживает только запрос с ключевым словом для моей собственной цели. Все могут свободно исследовать новые функции. Необходимо отметить, что он не использует Sina Weibo API, поскольку Weibo ограничивает количество данных, чтобы запросить, используется ли API. Он в основном использует Broswer Cookie для входа в систему, адрес URL -адреса для поиска. Пожалуйста, отправьте запрос на привлечение, если вы читаете, чтобы внести свой вклад.
Этот проект лицензирован по лицензии MIT - для получения подробной информации см. Файл License.txt