?Life is fantastic?!~
„ Wussten Sie, dass alle Ihre Türen verschlossen waren? “ – Riddick (The Chronicles of Riddick)
Erstellt von @kris
Portal
?Website-Anmeldemodell
Einige Crawler-Beispielprogramme sowie simulierte Anmeldeprogramme basieren auf Selen, und einige simulierte Anmeldungen basieren auf js Reverse Engineering. Wenn Sie Fragen haben, können Sie diese direkt einreichen Gerne können Sie PR einreichen. Wenn Sie den Test bestehen, können Sie alle Programme in diesem Artikel mit python3
Um
Bei der simulierten Anmeldung wird grundsätzlich die direkte Anmeldung oder Selen + Webdriver verwendet. Bei einigen Websites ist die direkte Anmeldung sehr schwierig, z. B. bei QQ Space, Bilibili usw. Bei Verwendung von Selen ist dies relativ einfach.
Obwohl beim Anmelden Selen verwendet wird, können wir aus Effizienzgründen die nach dem Anmelden erhaltenen Cookies beibehalten und dann Anfragen oder Scrapy aufrufen, um Daten zu sammeln, sodass die Geschwindigkeit der Datenerfassung gewährleistet werden kann.
WebDriver
Chrome Firefox
Vollendet
Katalog
Prüfen
Bitte berühren Sie hier, um Testbilder anzusehen
Informationen
- Um Ihnen für Ihre Unterstützung zu danken, werde ich eine Reihe kostenloser Crawler-Tutorials schreiben, um sicherzustellen, dass Sie die meisten Websites auf dem Markt crawlen können, nachdem Sie die Tutorial-Adresse kennengelernt haben
Tipps zur Pull-Anfrage
- Jeder ist willkommen, eine Anfrage zu stellen?
Probleme
- Bezüglich Verifizierungscodes: Keine der in diesem Projekt verwendeten Methoden befasst sich mit Verifizierungscodes. Die Schwierigkeit, komplexe Verifizierungscodes zu identifizieren, ist derzeit noch relativ hoch. Meiner Meinung nach besteht der beste Weg, einen Crawler zu betreiben, darin, Bestätigungscodes so weit wie möglich zu vermeiden.
- Code-Ungültigkeit: Aufgrund von Änderungen in der Website-Strategie oder im Stil wird der Code ungültig. Wenn Sie das Problem gelöst haben, können Sie eine PR einreichen.
- Ein Teil des Codes wird optimiert. . .
- Wenn dieses Repo für alle hilfreich ist, denken Sie daran, es zu markieren.
Danksagungen
@deepforce |. @cclauss |. ksoeasyxiaosi |
- Vielen Dank an die oben genannten Entwickler für ihre Unterstützung und Beiträge.
Kontaktieren Sie mich
Beachten:
- Dieses Projekt dient nur dem Lernen und der Kommunikation
Jeder ist willkommen, mitzumachen und sich zu verbessern: Eine Person kann schnell sein, aber eine Gruppe von Menschen kann weiter kommen