scrapeghost
Die Nutzung erfolgt auf eigene Gefahr. Diese Bibliothek führt erheblich teure Aufrufe durch (0,36 $ für einen GPT-4-Aufruf auf einer mittelgroßen Seite). Kostenschätzungen basieren auf der OpenAI-Preisseite und es kann nicht garantiert werden, dass sie korrekt sind.
Merkmale
Der Zweck dieser Bibliothek besteht darin, eine praktische Schnittstelle zum Erkunden von Web Scraping mit GPT bereitzustellen.
Während der Großteil der Arbeit vom GPT-Modell erledigt wird, bietet scrapeghost
eine Reihe von Funktionen, die die Verwendung vereinfachen.
Python-basierte Schemadefinition – Definieren Sie die Form der Daten, die Sie extrahieren möchten, als beliebiges Python-Objekt, mit so vielen oder wenigen Details, wie Sie möchten.
Vorverarbeitung
- HTML-Bereinigung – Entfernen Sie unnötigen HTML-Code, um die Größe und Kosten von API-Anfragen zu reduzieren.
- CSS- und XPath-Selektoren – Filtern Sie HTML vor, indem Sie einen einzelnen CSS- oder XPath-Selektor schreiben.
- Automatische Aufteilung – Teilen Sie den HTML-Code optional in mehrere Aufrufe des Modells auf, sodass größere Seiten gescrapt werden können.
Nachbearbeitung
- JSON-Validierung – Stellen Sie sicher, dass die Antwort gültiges JSON ist. (Mit der Option, es für Korrekturen an GPT zurückzuschicken, falls dies nicht der Fall ist.)
- Schemavalidierung – Gehen Sie einen Schritt weiter und verwenden Sie ein
pydantic
Schema, um die Antwort zu validieren. - Halluzinationsprüfung – Sind die Daten in der Antwort tatsächlich auf der Seite vorhanden?
Kostenkontrolle
- Scraper ermitteln weiterhin die Anzahl der gesendeten und empfangenen Token, sodass die Kosten nachverfolgt werden können.
- Unterstützung für automatische Fallbacks (z. B. standardmäßig das kostensparende GPT-3.5-Turbo verwenden, bei Bedarf auf GPT-4 zurückgreifen).
- Ermöglicht die Festlegung eines Budgets und stoppt den Scraper, wenn das Budget überschritten wird.