Download SinaWeiboScraper - SinaWeiboScraper Quellcode Download

SinaWeiboScraper

Anderer Quellcode

1.0.0

Herunterladen

Sinaweiboscraper

Dies ist ein Web -Schaber für die Sina Weibo -Suche nach Schlüsselwörtern

Warum Signaweiboscraper verwenden?

Es gibt einige Sina Weibo -Scrapers. Sie werden jedoch alle mit Weibo API implementiert. Sina Weibo begrenzt die Datenmenge, die jede Stunde, den Tag und jeden Monat erhalten werden können, wenn die API verwendet wird. Dies ist ein Web -Schaber für die Sina -Weibo -Suche nach Schlüsselwörtern, die durch reine URL -Codierung implementiert werden, damit ein echter Browser simuliert, zur Seite navigiert und Zugriff auf die Daten erhalten. Es wird die Grenzen los. Es ist möglich, dass Sie bei Weibo den Bestätigungscode eingeben können, um zu beweisen, dass Sie keine Maschine sind, aber nicht oft.

Autor

Xuzhou yin. Persönliche Website: www.xuzhouyin.com

So herunterladen

Öffnen Sie das Terminal und navigieren Sie zum Verzeichnis, in dem Sie das Programm speichern möchten. Geben Sie dann git clone address ein, um das Programm herunterzuladen

Abhängigkeiten

Python 2.7 oder höher
Firefox -Browser (andere Browser können in Zukunft unterstützt werden)
Selen. Typ pip install selenium
Zeit. Typ pip install time
BS4. Typ pip install bs4
Urlib. Typ pip install urllib
datetime. Geben Sie pip install datetime ein
Unicodecsv. Typ pip install unicodecsv

Wie man benutzt

Vor dem Ausführen des Programms

Sina Weibo beschränkt die Erlaubnis der Suchfunktion, in der nur Benutzer unterschrieben haben, in der Lage, erweiterte Suche zu verwenden (z. B. die Suche mit einem bestimmten Zeitraum). Melden Sie sich also bitte für ein Sina Weibo -Konto an und melden Sie sich über den Firefox -Browser an (also signiert Firefox beim nächsten Mal automatisch). Ermitteln Sie dann den Pfad des Firefox -Profils (siehe Where Firefox -Profil gespeichert). und ersetzen Sie den Pfad in Zeile 49 im scraper.py .

Abfrage

Die Datei query.txt dient zum Speichern aller Abfragen. Bitte fügen Sie Abfragen in Form von keyword;eventDate;startDate;endDate;pageofResult , eine Abfrage pro Zeile hinzu. Sina Weibo unterstützt nicht "Scrollen Sie nach unten, um mehr" bei der Suche zu sehen. Stattdessen trennt es die Abfrageergebnisse in Seiten. Und Sina begrenzt die Ergebnisse der Ergebnisse auf 50. Für jede Abfrage können nur 50 Seiten der Ergebnisse von Benutzern zugegriffen werden. Und jede Seite enthält 20 Beiträge. Daher können für jede Suche maximal 1000 Beiträge erhalten werden. Es kann jedoch sein, dass es weniger als 1000 Beiträge aus der Abfrage gibt. Überprüfen Sie also bitte die maximale Anzahl von Seiten, die alle Ergebnisse der Abfrage enthalten .

Führen Sie das Programm aus

Führen Sie das Programm durch, indem Sie python scraper.py eingeben

Was passiert während der Ausführung

Der Firefox -Browser wird ausgeführt und mit Keyword autimatisch zur Suche mit der Seite navigiert.

Ausgabe

Die Ergebnisse werden im output im CSV -Format erfolgen. Jede Abfrage generiert eine CSV -Datei. Excel hat ein Problem, chinesische Zeichen anzuzeigen. Das Anzeigen eines anderen Texteditors ist also besser (wenn Sie Mac verwenden, können Sie die CSV -Dateien zum Öffnen der CSV -Dateien verwenden).

Wie man Entwickler

Im Moment unterstützt dieses Programm nur die Abfrage mit Keyword für meinen eigenen Zweck. Jeder kann neue Funktionen erkunden. Es muss angemerkt werden, dass es keine Sina -Weibo -API verwendet, da Weibo die Datenmenge auf Abfrage einschränkt, wenn die API verwendet wird. Im Grunde genommen werden Broswer Cookie verwendet, um die URL -Adresse zu melden, um die Suche durchzuführen. Bitte senden Sie eine Pull -Anfrage, wenn Sie gelesen werden, um einen Beitrag zu leisten.