gpt automated web scraper
1.0.0
该项目是一个人工智能驱动的网络抓取工具,允许您根据用户定义的要求从 HTML 源中提取信息。它生成抓取代码并执行它以检索所需的数据。
在运行 AI Web Scraper 之前,请确保已安装以下先决条件:
requirements.txt
文件中指定的所需 Python 包克隆项目存储库:
git clone https://github.com/dirkjbreeuwer/gpt-automated-web-scraper
导航到项目目录:
cd gpt-automated-web-scraper
安装所需的 Python 包:
pip install -r requirements.txt
设置 OpenAI GPT-4 API 密钥:
按照 OpenAI 的文档获取 API 密钥。
在项目目录中将名为.env.example
的文件重命名为.env
。
将以下行添加到.env
文件中,将YOUR_API_KEY
替换为您的实际 API 密钥:
OPENAI_API_KEY=YOUR_API_KEY
要使用 AI Web Scraper,请使用所需的命令行参数运行gpt-scraper.py
脚本。
可以使用以下命令行参数:
--source
:要抓取的 HTML 源的 URL 或本地路径。--source-type
:源的类型。指定"url"
或"file"
。--requirements
:用户定义的抓取要求。--target-string
:由于 GPT-4 的最大令牌限制(4k 令牌),AI 模型处理所需数据所在的 HTML 的较小子集。目标字符串应该是可以在您要抓取的网站中找到的示例字符串。以下是使用 AI Web Scraper 的一些示例命令:
python3 gpt-scraper.py --source-type " url " --source " https://www.scrapethissite.com/pages/forms/ " --requirements " Print a JSON file with all the information available for the Chicago Blackhawks " --target-string " Chicago Blackhawks "
将--source
、 --requirements
和--target-string
的值替换为您的特定值。
该项目已获得 MIT 许可证的许可。请根据您的需要随意修改和使用它。