Ce projet est un grattoir Web alimenté par l'IA qui vous permet d'extraire des informations à partir de sources HTML en fonction des exigences définies par l'utilisateur. Il génère du code de scraping et l’exécute pour récupérer les données souhaitées.
Avant d'exécuter AI Web Scraper, assurez-vous que les conditions préalables suivantes sont installées :
requirements.txt
Clonez le dépôt du projet :
git clone https://github.com/dirkjbreeuwer/gpt-automated-web-scraper
Accédez au répertoire du projet :
cd gpt-automated-web-scraper
Installez les packages Python requis :
pip install -r requirements.txt
Configurez la clé API OpenAI GPT-4 :
Obtenez une clé API auprès d'OpenAI en suivant leur documentation.
Renommez le fichier appelé .env.example
en .env
dans le répertoire du projet.
Ajoutez la ligne suivante au fichier .env
, en remplaçant YOUR_API_KEY
par votre clé API réelle :
OPENAI_API_KEY=YOUR_API_KEY
Pour utiliser AI Web Scraper, exécutez le script gpt-scraper.py
avec les arguments de ligne de commande souhaités.
Les arguments de ligne de commande suivants sont disponibles :
--source
: L'URL ou le chemin local vers la source HTML à récupérer.--source-type
: Type de la source. Spécifiez soit "url"
soit "file"
.--requirements
: exigences définies par l'utilisateur pour le scraping.--target-string
: en raison de la limite maximale de jetons de GPT-4 (4 000 jetons), le modèle d'IA traite un sous-ensemble plus petit du code HTML où se trouvent les données souhaitées. La chaîne cible doit être un exemple de chaîne pouvant être trouvée sur le site Web que vous souhaitez récupérer.Voici quelques exemples de commandes pour utiliser AI Web Scraper :
python3 gpt-scraper.py --source-type " url " --source " https://www.scrapethissite.com/pages/forms/ " --requirements " Print a JSON file with all the information available for the Chicago Blackhawks " --target-string " Chicago Blackhawks "
Remplacez les valeurs de --source
, --requirements
et --target-string
par vos valeurs spécifiques.
Ce projet est sous licence MIT. N'hésitez pas à le modifier et à l'utiliser selon vos besoins.