scrapeghost
Use por sua conta e risco. Esta biblioteca faz chamadas consideravelmente caras (US$ 0,36 para uma chamada GPT-4 em uma página de tamanho moderado). As estimativas de custo são baseadas na página de preços do OpenAI e não há garantia de precisão.
Características
O objetivo desta biblioteca é fornecer uma interface conveniente para explorar web scraping com GPT.
Embora a maior parte do trabalho seja feita pelo modelo GPT, scrapeghost
oferece vários recursos para facilitar o uso.
Definição de esquema baseada em Python - Defina a forma dos dados que você deseja extrair como qualquer objeto Python, com quantos detalhes desejar.
Pré-processamento
- Limpeza de HTML – Remova HTML desnecessário para reduzir o tamanho e o custo das solicitações de API.
- Seletores CSS e XPath - Pré-filtre o HTML escrevendo um único seletor CSS ou XPath.
- Divisão automática - Opcionalmente, divida o HTML em várias chamadas para o modelo, permitindo que páginas maiores sejam extraídas.
Pós-processamento
- Validação JSON – Certifique-se de que a resposta seja JSON válida. (Com a opção de devolvê-lo ao GPT para correções, caso não esteja.)
- Validação de esquema - vá um passo além, use um esquema
pydantic
para validar a resposta. - Verificação de alucinação – Os dados da resposta realmente existem na página?
Controles de custos
- Os scrapers continuam calculando totais de quantos tokens foram enviados e recebidos, para que os custos possam ser rastreados.
- Suporte para fallbacks automáticos (por exemplo, use GPT-3.5-Turbo econômico por padrão, volte para GPT-4 se necessário).
- Permite definir um orçamento e interrompe o scraper caso o orçamento seja excedido.