gpt automated web scraper下载 - gpt automated web scraper工具源代码下载

gpt automated web scraper

Ai源码

1.0.0

下载

人工智能网页抓取工具

该项目是一个人工智能驱动的网络抓取工具，允许您根据用户定义的要求从 HTML 源中提取信息。它生成抓取代码并执行它以检索所需的数据。

先决条件

在运行 AI Web Scraper 之前，请确保已安装以下先决条件：

Python 3.x
requirements.txt文件中指定的所需 Python 包
OpenAI GPT-4 的 API 密钥

安装

克隆项目存储库：

git clone https://github.com/dirkjbreeuwer/gpt-automated-web-scraper

导航到项目目录：
```
 cd gpt-automated-web-scraper
```
安装所需的 Python 包：
```
pip install -r requirements.txt
```
设置 OpenAI GPT-4 API 密钥：
- 按照 OpenAI 的文档获取 API 密钥。
- 在项目目录中将名为.env.example的文件重命名为.env 。
- 将以下行添加到.env文件中，将YOUR_API_KEY替换为您的实际 API 密钥：
```
 OPENAI_API_KEY=YOUR_API_KEY
```

用法

要使用 AI Web Scraper，请使用所需的命令行参数运行gpt-scraper.py脚本。

命令行参数

可以使用以下命令行参数：

--source ：要抓取的 HTML 源的 URL 或本地路径。
--source-type ：源的类型。指定"url"或"file" 。
--requirements ：用户定义的抓取要求。
--target-string ：由于 GPT-4 的最大令牌限制（4k 令牌），AI 模型处理所需数据所在的 HTML 的较小子集。目标字符串应该是可以在您要抓取的网站中找到的示例字符串。

用法示例

以下是使用 AI Web Scraper 的一些示例命令：

python3 gpt-scraper.py --source-type " url " --source " https://www.scrapethissite.com/pages/forms/ " --requirements " Print a JSON file with all the information available for the Chicago Blackhawks " --target-string " Chicago Blackhawks "

将--source 、 --requirements和--target-string的值替换为您的特定值。