Dies ist ein Web -Schaber für die Sina Weibo -Suche nach Schlüsselwörtern
Es gibt einige Sina Weibo -Scrapers. Sie werden jedoch alle mit Weibo API implementiert. Sina Weibo begrenzt die Datenmenge, die jede Stunde, den Tag und jeden Monat erhalten werden können, wenn die API verwendet wird. Dies ist ein Web -Schaber für die Sina -Weibo -Suche nach Schlüsselwörtern, die durch reine URL -Codierung implementiert werden, damit ein echter Browser simuliert, zur Seite navigiert und Zugriff auf die Daten erhalten. Es wird die Grenzen los. Es ist möglich, dass Sie bei Weibo den Bestätigungscode eingeben können, um zu beweisen, dass Sie keine Maschine sind, aber nicht oft.
Xuzhou yin. Persönliche Website: www.xuzhouyin.com
Öffnen Sie das Terminal und navigieren Sie zum Verzeichnis, in dem Sie das Programm speichern möchten. Geben Sie dann git clone address
ein, um das Programm herunterzuladen
pip install selenium
pip install time
pip install bs4
pip install urllib
pip install datetime
einpip install unicodecsv
Sina Weibo beschränkt die Erlaubnis der Suchfunktion, in der nur Benutzer unterschrieben haben, in der Lage, erweiterte Suche zu verwenden (z. B. die Suche mit einem bestimmten Zeitraum). Melden Sie sich also bitte für ein Sina Weibo -Konto an und melden Sie sich über den Firefox -Browser an (also signiert Firefox beim nächsten Mal automatisch). Ermitteln Sie dann den Pfad des Firefox -Profils (siehe Where Firefox -Profil gespeichert). und ersetzen Sie den Pfad in Zeile 49 im scraper.py
.
Die Datei query.txt
dient zum Speichern aller Abfragen. Bitte fügen Sie Abfragen in Form von keyword;eventDate;startDate;endDate;pageofResult
, eine Abfrage pro Zeile hinzu. Sina Weibo unterstützt nicht "Scrollen Sie nach unten, um mehr" bei der Suche zu sehen. Stattdessen trennt es die Abfrageergebnisse in Seiten. Und Sina begrenzt die Ergebnisse der Ergebnisse auf 50. Für jede Abfrage können nur 50 Seiten der Ergebnisse von Benutzern zugegriffen werden. Und jede Seite enthält 20 Beiträge. Daher können für jede Suche maximal 1000 Beiträge erhalten werden. Es kann jedoch sein, dass es weniger als 1000 Beiträge aus der Abfrage gibt. Überprüfen Sie also bitte die maximale Anzahl von Seiten, die alle Ergebnisse der Abfrage enthalten .
Führen Sie das Programm durch, indem Sie python scraper.py
eingeben
Der Firefox -Browser wird ausgeführt und mit Keyword autimatisch zur Suche mit der Seite navigiert.
Die Ergebnisse werden im output
im CSV -Format erfolgen. Jede Abfrage generiert eine CSV -Datei. Excel hat ein Problem, chinesische Zeichen anzuzeigen. Das Anzeigen eines anderen Texteditors ist also besser (wenn Sie Mac verwenden, können Sie die CSV -Dateien zum Öffnen der CSV -Dateien verwenden).
Im Moment unterstützt dieses Programm nur die Abfrage mit Keyword für meinen eigenen Zweck. Jeder kann neue Funktionen erkunden. Es muss angemerkt werden, dass es keine Sina -Weibo -API verwendet, da Weibo die Datenmenge auf Abfrage einschränkt, wenn die API verwendet wird. Im Grunde genommen werden Broswer Cookie verwendet, um die URL -Adresse zu melden, um die Suche durchzuführen. Bitte senden Sie eine Pull -Anfrage, wenn Sie gelesen werden, um einen Beitrag zu leisten.
Dieses Projekt ist unter der MIT -Lizenz lizenziert - finden Sie in der lizenz.txt -Datei für Details