scrapeghost Télécharger - scrapeghost Téléchargement du code source

scrapeghost

Autre code source

0.6.0

Télécharger

grattoir

Utilisez à vos propres risques. Cette bibliothèque effectue des appels considérablement coûteux (0,36 $ pour un appel GPT-4 sur une page de taille moyenne.) Les estimations de coûts sont basées sur la page de tarification d'OpenAI et leur précision n'est pas garantie.

Caractéristiques

Le but de cette bibliothèque est de fournir une interface pratique pour explorer le web scraping avec GPT.

Bien que l'essentiel du travail soit effectué par le modèle GPT, scrapeghost fournit un certain nombre de fonctionnalités pour le rendre plus facile à utiliser.

Définition de schéma basée sur Python : définissez la forme des données que vous souhaitez extraire comme n'importe quel objet Python, avec autant ou peu de détails que vous le souhaitez.

Prétraitement

Nettoyage HTML - Supprimez le HTML inutile pour réduire la taille et le coût des requêtes API.
Sélecteurs CSS et XPath - Pré-filtrez le HTML en écrivant un seul sélecteur CSS ou XPath.
Fractionnement automatique : divisez éventuellement le code HTML en plusieurs appels au modèle, ce qui permet de récupérer des pages plus volumineuses.

Post-traitement

Validation JSON : assurez-vous que la réponse est un JSON valide. (Avec la possibilité de le renvoyer vers GPT pour obtenir des correctifs si ce n'est pas le cas.)
Validation du schéma - Allez plus loin, utilisez un schéma pydantic pour valider la réponse.
Vérification des hallucinations : les données contenues dans la réponse existent-elles réellement sur la page ?

Contrôles des coûts

Les Scrapers continuent de totaliser le nombre de jetons envoyés et reçus, afin que les coûts puissent être suivis.
Prise en charge des solutions de secours automatiques (par exemple, utilisez par défaut GPT-3.5-Turbo, économique, revenez à GPT-4 si nécessaire.)
Permet de définir un budget et d'arrêter le scraper si le budget est dépassé.

Développer

Informations supplémentaires

Version 0.6.0
Type Autre code source
Date de mise à jour 2024-12-06
taille 256.7KB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
wp functions

Autres catégories

1.0.0
termwind

Autres catégories

v2.3.0

Actualités connexes Tout