Этот проект представляет собой веб-скребок на базе искусственного интеллекта, который позволяет извлекать информацию из источников HTML на основе определенных пользователем требований. Он генерирует код очистки и выполняет его для получения нужных данных.
Прежде чем запускать AI Web Scraper, убедитесь, что у вас установлены следующие необходимые компоненты:
requirements.txt
Клонируйте репозиторий проекта:
git clone https://github.com/dirkjbreeuwer/gpt-automated-web-scraper
Перейдите в каталог проекта:
cd gpt-automated-web-scraper
Установите необходимые пакеты Python:
pip install -r requirements.txt
Настройте API-ключ OpenAI GPT-4:
Получите ключ API от OpenAI, следуя их документации.
Переименуйте файл с именем .env.example
в .env
в каталоге проекта.
Добавьте следующую строку в файл .env
, заменив YOUR_API_KEY
своим фактическим ключом API:
OPENAI_API_KEY=YOUR_API_KEY
Чтобы использовать AI Web Scraper, запустите сценарий gpt-scraper.py
с нужными аргументами командной строки.
Доступны следующие аргументы командной строки:
--source
: URL-адрес или локальный путь к источнику HTML для очистки.--source-type
: Тип источника. Укажите либо "url"
, либо "file"
.--requirements
: определяемые пользователем требования к очистке.--target-string
: из-за максимального лимита токенов GPT-4 (4 тыс. токенов) модель ИИ обрабатывает меньшее подмножество HTML, в котором расположены нужные данные. Целевая строка должна представлять собой пример строки, которую можно найти на веб-сайте, который вы хотите очистить.Вот несколько примеров команд для использования AI Web Scraper:
python3 gpt-scraper.py --source-type " url " --source " https://www.scrapethissite.com/pages/forms/ " --requirements " Print a JSON file with all the information available for the Chicago Blackhawks " --target-string " Chicago Blackhawks "
Замените значения --source
, --requirements
и --target-string
своими конкретными значениями.
Этот проект лицензируется по лицензии MIT. Не стесняйтесь изменять и использовать его в соответствии с вашими потребностями.