gpt automated web scraper
1.0.0
該專案是一個由人工智慧驅動的網頁抓取工具,可讓您根據使用者定義的要求從 HTML 來源中提取資訊。它會產生抓取程式碼並執行它以檢索所需的資料。
在執行 AI Web Scraper 之前,請確保已安裝以下先決條件:
requirements.txt
檔案中指定的所需 Python 套件克隆專案儲存庫:
git clone https://github.com/dirkjbreeuwer/gpt-automated-web-scraper
導航到專案目錄:
cd gpt-automated-web-scraper
安裝所需的 Python 套件:
pip install -r requirements.txt
設定 OpenAI GPT-4 API 金鑰:
依照 OpenAI 的文檔取得 API 金鑰。
在專案目錄中將名為.env.example
的檔案重新命名為.env
。
將以下行新增至.env
檔案中,將YOUR_API_KEY
替換為您的實際 API 金鑰:
OPENAI_API_KEY=YOUR_API_KEY
若要使用 AI Web Scraper,請使用所需的命令列參數來執行gpt-scraper.py
腳本。
可以使用以下命令列參數:
--source
:要抓取的 HTML 來源的 URL 或本機路徑。--source-type
:來源的類型。指定"url"
或"file"
。--requirements
:使用者定義的抓取要求。--target-string
:由於 GPT-4 的最大令牌限制(4k 令牌),AI 模型處理所需資料所在的 HTML 的較小子集。目標字串應該是可以在您要抓取的網站中找到的範例字串。以下是使用 AI Web Scraper 的一些範例命令:
python3 gpt-scraper.py --source-type " url " --source " https://www.scrapethissite.com/pages/forms/ " --requirements " Print a JSON file with all the information available for the Chicago Blackhawks " --target-string " Chicago Blackhawks "
將--source
、 --requirements
和--target-string
的值替換為您的特定值。
該項目已獲得 MIT 許可證的許可。請根據您的需求隨意修改和使用它。