Este proyecto es un raspador web impulsado por IA que le permite extraer información de fuentes HTML según los requisitos definidos por el usuario. Genera código de raspado y lo ejecuta para recuperar los datos deseados.
Antes de ejecutar AI Web Scraper, asegúrese de tener instalados los siguientes requisitos previos:
requirements.txt
Clona el repositorio del proyecto:
git clone https://github.com/dirkjbreeuwer/gpt-automated-web-scraper
Navegue al directorio del proyecto:
cd gpt-automated-web-scraper
Instale los paquetes de Python necesarios:
pip install -r requirements.txt
Configure la clave API OpenAI GPT-4:
Obtenga una clave API de OpenAI siguiendo su documentación.
Cambie el nombre del archivo llamado .env.example
a .env
en el directorio del proyecto.
Agregue la siguiente línea al archivo .env
, reemplazando YOUR_API_KEY
con su clave API real:
OPENAI_API_KEY=YOUR_API_KEY
Para utilizar AI Web Scraper, ejecute el script gpt-scraper.py
con los argumentos de línea de comandos deseados.
Los siguientes argumentos de línea de comandos están disponibles:
--source
: La URL o ruta local a la fuente HTML que se va a extraer.--source-type
: Tipo de fuente. Especifique "url"
o "file"
.--requirements
: requisitos definidos por el usuario para el scraping.--target-string
: debido al límite máximo de tokens de GPT-4 (4k tokens), el modelo de IA procesa un subconjunto más pequeño del HTML donde se encuentran los datos deseados. La cadena de destino debe ser una cadena de ejemplo que se pueda encontrar dentro del sitio web que desea extraer.A continuación se muestran algunos comandos de ejemplo para utilizar AI Web Scraper:
python3 gpt-scraper.py --source-type " url " --source " https://www.scrapethissite.com/pages/forms/ " --requirements " Print a JSON file with all the information available for the Chicago Blackhawks " --target-string " Chicago Blackhawks "
Reemplace los valores de --source
, --requirements
y --target-string
con sus valores específicos.
Este proyecto está bajo la licencia MIT. Siéntase libre de modificarlo y utilizarlo según sus necesidades.