Este projeto é um web scraper com tecnologia de IA que permite extrair informações de fontes HTML com base em requisitos definidos pelo usuário. Ele gera código de raspagem e o executa para recuperar os dados desejados.
Antes de executar o AI Web Scraper, certifique-se de ter os seguintes pré-requisitos instalados:
requirements.txt
Clone o repositório do projeto:
git clone https://github.com/dirkjbreeuwer/gpt-automated-web-scraper
Navegue até o diretório do projeto:
cd gpt-automated-web-scraper
Instale os pacotes Python necessários:
pip install -r requirements.txt
Configure a chave de API OpenAI GPT-4:
Obtenha uma chave de API da OpenAI seguindo sua documentação.
Renomeie o arquivo chamado .env.example
para .env
no diretório do projeto.
Adicione a seguinte linha ao arquivo .env
, substituindo YOUR_API_KEY
pela sua chave de API real:
OPENAI_API_KEY=YOUR_API_KEY
Para usar o AI Web Scraper, execute o script gpt-scraper.py
com os argumentos de linha de comando desejados.
Os seguintes argumentos de linha de comando estão disponíveis:
--source
: o URL ou caminho local para a fonte HTML a ser extraída.--source-type
: Tipo da fonte. Especifique "url"
ou "file"
.--requirements
: requisitos definidos pelo usuário para raspagem.--target-string
: Devido ao limite máximo de tokens do GPT-4 (tokens de 4k), o modelo de IA processa um subconjunto menor do HTML onde os dados desejados estão localizados. A string de destino deve ser uma string de exemplo que pode ser encontrada no site que você deseja copiar.Aqui estão alguns exemplos de comandos para usar o AI Web Scraper:
python3 gpt-scraper.py --source-type " url " --source " https://www.scrapethissite.com/pages/forms/ " --requirements " Print a JSON file with all the information available for the Chicago Blackhawks " --target-string " Chicago Blackhawks "
Substitua os valores de --source
, --requirements
e --target-string
pelos seus valores específicos.
Este projeto está licenciado sob a licença MIT. Sinta-se à vontade para modificá-lo e usá-lo de acordo com suas necessidades.