Scraping einer ASPX-Website nur mit BS4 und Anfragen.
Etwas Code, den ich geschrieben habe, als ich gelernt habe, mit kniffligen ASPX-Ansichtszuständen umzugehen und Daten erfolgreich zu scrapen, wobei ich versucht habe, dies ohne die Verwendung von Selenium zu tun, um es etwas leichter und einfacher ausführbar zu machen. Die Website war www.bernco.gov, einer der ersten freiberuflichen Jobs, an denen ich gearbeitet habe. Dabei wurden bestimmte Paketdaten extrahiert
Hoffentlich kann jemand, der mit ähnlichen Dingen (Ansichtszustände und ASPX-Seiten mit Anfragen) einen Tacklink durchführt, Wert aus dem Code ziehen und eine bessere Vorstellung davon bekommen, wie er seine Aufgabe erledigen kann.
Einige zusätzliche Erklärungen: __EVENTTARGET – um herauszufinden, welches Steuerelement das Postback verursacht hat (z. B. Schaltfläche „Weiter“) __VIEWSTATE – wird zum Speichern vorheriger Zustände der Seite verwendet und muss in den „Daten“ der Anfrage platziert werden