Téléchargement SinaWeiboScraper - Téléchargement du code source SinaWeiboScraper

SinaWeiboScraper

Autre code source

1.0.0

Télécharger

Sinaweiboscraper

Ceci est un grattoir Web pour la recherche de Sina Weibo par des mots clés

Pourquoi utiliser Sinaweiboscraper?

Il existe des grattoirs Sina Weibo. Cependant, ils sont tous mis en œuvre avec l'API Weibo. Sina Weibo limite la quantité de données qui peuvent être obtenues chaque heure, jour et mois si l'API est utilisée. Il s'agit d'un grattoir Web pour la recherche SINA Weibo par des mots clés implémentés par un codage d'URL pur afin qu'il simule un véritable navigateur, navigue vers la page et accéder aux données. Il se débarrasse des limites. Il est possible que Weibo vous permette de saisir le code de vérification pour prouver que vous n'êtes pas une machine, mais ce n'est pas souvent.

Auteur

Xuzhou Yin. Site Web personnel: www.xuzhouyin.com

Comment télécharger

Ouvrez le terminal et accédez au répertoire où vous souhaitez stocker le programme, puis tapez git clone address pour télécharger le programme

Dépendances

Python 2.7 ou plus
Firefox Browser (d'autres navigateurs peuvent être pris en charge à l'avenir)
sélénium. Type pip install selenium
temps. Tapez pip install time
BS4. Type pip install bs4
Urllib. Type pip install urllib
DateTime. Tapez pip install datetime
Unicodecsv. Type pip install unicodecsv

Comment utiliser

Avant d'exécuter le programme

Sina Weibo limite l'autorisation de la fonction de recherche dans laquelle seuls les utilisateurs ont signé peuvent utiliser une recherche avancée (comme la recherche avec une période de temps spécifique). Veuillez donc vous inscrire à un compte Sina Weibo et vous connecter via Firefox Browser (donc Firefox signe automatiquement dans la prochaine fois). Trouvez ensuite le chemin du profil Firefox (reportez-vous à Where est le profil Firefox stocké). et remplacez le chemin de la ligne 49 dans scraper.py .

Requête

Le fichier query.txt est pour stocker toutes les requêtes. Veuillez ajouter des requêtes sous forme de keyword;eventDate;startDate;endDate;pageofResult , une requête par ligne. Sina Weibo ne prend pas en charge la fonctionnalité "faire défiler vers le bas pour afficher plus" dans la recherche. Au lieu de cela, il sépare les résultats de la requête en pages. Et SINA limite la page des résultats à 50. Ainsi, pour chaque requête, seules 50 pages des résultats sont accessibles par les utilisateurs. Et chaque page contient 20 messages. Par conséquent, pour chaque recherche, 1000 poteaux maximum peuvent être obtenus. Cependant, il se pourrait que ce soit moins de 1000 postes de la requête. Veuillez donc vérifier le nombre maximum de pages contenant tous les résultats de la requête .

Exécuter le programme

Exécutez le programme en tapant python scraper.py

Que se passe-t-il pendant l'exécution

Le navigateur Firefox sera exécuté, navigué sur la page de recherche avec le mot-clé de manière automatique.

Sortir

Les résultats seront dans le dossier output au format CSV. Chaque requête génère un fichier CSV. Excel a un problème à afficher des caractères chinois. Ainsi, consulter un autre éditeur de texte est meilleur (si vous utilisez Mac, vous pouvez utiliser des numéros pour ouvrir les fichiers CSV).

Comment développeur

Pour l'instant, ce programme ne prend en charge que la requête avec un mot-clé à mon objectif. Tout le monde est libre d'explorer de nouvelles fonctionnalités. Il y a une chose à noter qu'elle n'utilise pas l'API SINA Weibo car Weibo limite la quantité de données à interroger si l'API est utilisée. Il utilise essentiellement un cookie Broswer pour se connecter à l'adresse URL pour effectuer la recherche. Veuillez soumettre une demande de traction si vous êtes lu pour contribuer.