Ceci est un grattoir Web pour la recherche de Sina Weibo par des mots clés
Il existe des grattoirs Sina Weibo. Cependant, ils sont tous mis en œuvre avec l'API Weibo. Sina Weibo limite la quantité de données qui peuvent être obtenues chaque heure, jour et mois si l'API est utilisée. Il s'agit d'un grattoir Web pour la recherche SINA Weibo par des mots clés implémentés par un codage d'URL pur afin qu'il simule un véritable navigateur, navigue vers la page et accéder aux données. Il se débarrasse des limites. Il est possible que Weibo vous permette de saisir le code de vérification pour prouver que vous n'êtes pas une machine, mais ce n'est pas souvent.
Xuzhou Yin. Site Web personnel: www.xuzhouyin.com
Ouvrez le terminal et accédez au répertoire où vous souhaitez stocker le programme, puis tapez git clone address
pour télécharger le programme
pip install selenium
pip install time
pip install bs4
pip install urllib
pip install datetime
pip install unicodecsv
Sina Weibo limite l'autorisation de la fonction de recherche dans laquelle seuls les utilisateurs ont signé peuvent utiliser une recherche avancée (comme la recherche avec une période de temps spécifique). Veuillez donc vous inscrire à un compte Sina Weibo et vous connecter via Firefox Browser (donc Firefox signe automatiquement dans la prochaine fois). Trouvez ensuite le chemin du profil Firefox (reportez-vous à Where est le profil Firefox stocké). et remplacez le chemin de la ligne 49 dans scraper.py
.
Le fichier query.txt
est pour stocker toutes les requêtes. Veuillez ajouter des requêtes sous forme de keyword;eventDate;startDate;endDate;pageofResult
, une requête par ligne. Sina Weibo ne prend pas en charge la fonctionnalité "faire défiler vers le bas pour afficher plus" dans la recherche. Au lieu de cela, il sépare les résultats de la requête en pages. Et SINA limite la page des résultats à 50. Ainsi, pour chaque requête, seules 50 pages des résultats sont accessibles par les utilisateurs. Et chaque page contient 20 messages. Par conséquent, pour chaque recherche, 1000 poteaux maximum peuvent être obtenus. Cependant, il se pourrait que ce soit moins de 1000 postes de la requête. Veuillez donc vérifier le nombre maximum de pages contenant tous les résultats de la requête .
Exécutez le programme en tapant python scraper.py
Le navigateur Firefox sera exécuté, navigué sur la page de recherche avec le mot-clé de manière automatique.
Les résultats seront dans le dossier output
au format CSV. Chaque requête génère un fichier CSV. Excel a un problème à afficher des caractères chinois. Ainsi, consulter un autre éditeur de texte est meilleur (si vous utilisez Mac, vous pouvez utiliser des numéros pour ouvrir les fichiers CSV).
Pour l'instant, ce programme ne prend en charge que la requête avec un mot-clé à mon objectif. Tout le monde est libre d'explorer de nouvelles fonctionnalités. Il y a une chose à noter qu'elle n'utilise pas l'API SINA Weibo car Weibo limite la quantité de données à interroger si l'API est utilisée. Il utilise essentiellement un cookie Broswer pour se connecter à l'adresse URL pour effectuer la recherche. Veuillez soumettre une demande de traction si vous êtes lu pour contribuer.
Ce projet est sous licence en vertu de la licence MIT - voir le fichier licence.txt pour plus de détails