Скачать SinaWeiboScraper - SinaWeiboScraper исходный код скачать

SinaWeiboScraper

Другой исходный код

1.0.0

Скачать

Sinaweiboscraper

Это веб -скребок для Sina Weibo Search по ключевым словам

Зачем использовать sinaweiboscraper?

Существуют некоторые скребки Sina Weibo. Однако все они реализованы с Weibo API. Sina Weibo ограничивает объем данных, которые можно получить каждый час, день и месяц, если используется API. Это веб -скребок для поиска Sina Weibo по ключевым словам, реализованным чистым URL -кодировкой, чтобы он моделировал реальный браузер, перемещается на страницу и получает доступ к данным. Это избавляется от пределов. Вполне возможно, что Weibo позволит вам ввести код проверки, чтобы доказать, что вы не машина, но это не часто.

Автор

Сючжоу Инь. Личный веб -сайт: www.xuzhouyin.com

Как скачать

Открыть терминал и перейдите в каталог, где вы хотите хранить программу, затем введите git clone address для загрузки программы

Зависимости

Python 2.7 или выше
Браузер Firefox (другие браузеры могут быть поддержаны в будущем)
селен. Тип pip install selenium
время. Тип pip install time
BS4. Тип pip install bs4
урллиб. Тип pip install urllib
DateTime. Тип pip install datetime
Unicodecsv. Тип pip install unicodecsv

Как использовать

Прежде чем запустить программу

Sina Weibo ограничивает разрешение функции поиска, которую подписали только пользователи, способна использовать расширенный поиск (например, поиск с определенному периоду времени). Поэтому, пожалуйста, зарегистрируйтесь на учетную запись Sina Weibo и войдите через браузер Firefox (так что Firefox автоматически войдет в следующий раз). Затем найдите путь профиля Firefox (см. Где хранится профиль Firefox). и замените путь в строке 49 в scraper.py .

Запрос

Файл query.txt предназначен для хранения всех запросов. Пожалуйста, добавьте запросы в форму keyword;eventDate;startDate;endDate;pageofResult , один запрос на строку. Sina Weibo не поддерживает функцию «прокрутки внизу, чтобы просмотреть больше» в поисках. Вместо этого он разделяет результаты запроса на страницы. И Sina ограничивает страницу результатов 50. Таким образом, для каждого запроса пользователи могут получить только 50 страниц результатов. И каждая страница содержит 20 сообщений. Следовательно, для каждого поиска можно получить максимум 1000 постов. Тем не менее, это может быть так, что из запроса насчитывается менее 1000 постов. Поэтому, пожалуйста, проверьте максимальное количество страниц, которые содержат все результаты запроса .

Запустите программу

Запустите программу, набрав python scraper.py

Что происходит во время исполнения

Browser Firefox будет выполнен, а также Autimaty перемещается на страницу поиска с ключевым словом.

Выход

Результаты будут в output папке в формате CSV. Каждый запрос генерирует один файл CSV. Excel имеет проблемы с отображением китайских иероглиф. Таким образом, просмотр через другой текстовый редактор лучше (если вы используете Mac, вы можете использовать номера для открытия файлов CSV).

Как разработать

На данный момент эта программа поддерживает только запрос с ключевым словом для моей собственной цели. Все могут свободно исследовать новые функции. Необходимо отметить, что он не использует Sina Weibo API, поскольку Weibo ограничивает количество данных, чтобы запросить, используется ли API. Он в основном использует Broswer Cookie для входа в систему, адрес URL -адреса для поиска. Пожалуйста, отправьте запрос на привлечение, если вы читаете, чтобы внести свой вклад.