grattoir
Utilisez à vos propres risques. Cette bibliothèque effectue des appels considérablement coûteux (0,36 $ pour un appel GPT-4 sur une page de taille moyenne.) Les estimations de coûts sont basées sur la page de tarification d'OpenAI et leur précision n'est pas garantie.
Caractéristiques
Le but de cette bibliothèque est de fournir une interface pratique pour explorer le web scraping avec GPT.
Bien que l'essentiel du travail soit effectué par le modèle GPT, scrapeghost
fournit un certain nombre de fonctionnalités pour le rendre plus facile à utiliser.
Définition de schéma basée sur Python : définissez la forme des données que vous souhaitez extraire comme n'importe quel objet Python, avec autant ou peu de détails que vous le souhaitez.
Prétraitement
- Nettoyage HTML - Supprimez le HTML inutile pour réduire la taille et le coût des requêtes API.
- Sélecteurs CSS et XPath - Pré-filtrez le HTML en écrivant un seul sélecteur CSS ou XPath.
- Fractionnement automatique : divisez éventuellement le code HTML en plusieurs appels au modèle, ce qui permet de récupérer des pages plus volumineuses.
Post-traitement
- Validation JSON : assurez-vous que la réponse est un JSON valide. (Avec la possibilité de le renvoyer vers GPT pour obtenir des correctifs si ce n'est pas le cas.)
- Validation du schéma - Allez plus loin, utilisez un schéma
pydantic
pour valider la réponse. - Vérification des hallucinations : les données contenues dans la réponse existent-elles réellement sur la page ?
Contrôles des coûts
- Les Scrapers continuent de totaliser le nombre de jetons envoyés et reçus, afin que les coûts puissent être suivis.
- Prise en charge des solutions de secours automatiques (par exemple, utilisez par défaut GPT-3.5-Turbo, économique, revenez à GPT-4 si nécessaire.)
- Permet de définir un budget et d'arrêter le scraper si le budget est dépassé.