Bei diesem Projekt handelt es sich um einen KI-gestützten Web Scraper, der es Ihnen ermöglicht, Informationen aus HTML-Quellen basierend auf benutzerdefinierten Anforderungen zu extrahieren. Es generiert Scraping-Code und führt ihn aus, um die gewünschten Daten abzurufen.
Stellen Sie vor dem Ausführen des AI Web Scraper sicher, dass die folgenden Voraussetzungen installiert sind:
requirements.txt
angegeben sindKlonen Sie das Projekt-Repository:
git clone https://github.com/dirkjbreeuwer/gpt-automated-web-scraper
Navigieren Sie zum Projektverzeichnis:
cd gpt-automated-web-scraper
Installieren Sie die erforderlichen Python-Pakete:
pip install -r requirements.txt
Richten Sie den OpenAI GPT-4 API-Schlüssel ein:
Erhalten Sie einen API-Schlüssel von OpenAI, indem Sie der Dokumentation folgen.
Benennen Sie die Datei mit dem Namen .env.example
im Projektverzeichnis in .env
um.
Fügen Sie der .env
Datei die folgende Zeile hinzu und ersetzen Sie YOUR_API_KEY
durch Ihren tatsächlichen API-Schlüssel:
OPENAI_API_KEY=YOUR_API_KEY
Um den AI Web Scraper zu verwenden, führen Sie das Skript gpt-scraper.py
mit den gewünschten Befehlszeilenargumenten aus.
Die folgenden Befehlszeilenargumente sind verfügbar:
--source
: Die URL oder der lokale Pfad zur HTML-Quelle zum Scrapen.--source-type
: Typ der Quelle. Geben Sie entweder "url"
oder "file"
an.--requirements
: Benutzerdefinierte Anforderungen für das Scraping.--target-string
: Aufgrund des maximalen Token-Limits von GPT-4 (4.000 Token) verarbeitet das KI-Modell eine kleinere Teilmenge des HTML, in dem sich die gewünschten Daten befinden. Die Zielzeichenfolge sollte eine Beispielzeichenfolge sein, die auf der Website zu finden ist, die Sie durchsuchen möchten.Hier sind einige Beispielbefehle für die Verwendung des AI Web Scraper:
python3 gpt-scraper.py --source-type " url " --source " https://www.scrapethissite.com/pages/forms/ " --requirements " Print a JSON file with all the information available for the Chicago Blackhawks " --target-string " Chicago Blackhawks "
Ersetzen Sie die Werte für --source
, --requirements
und --target-string
durch Ihre spezifischen Werte.
Dieses Projekt ist unter der MIT-Lizenz lizenziert. Fühlen Sie sich frei, es entsprechend Ihren Bedürfnissen zu modifizieren und zu verwenden.