gpt automated web scraper
1.0.0
このプロジェクトは、ユーザー定義の要件に基づいて HTML ソースから情報を抽出できる AI を活用した Web スクレイパーです。スクレイピング コードを生成し、それを実行して目的のデータを取得します。
AI Web Scraper を実行する前に、次の前提条件がインストールされていることを確認してください。
requirements.txt
ファイルで指定されている必要な Python パッケージプロジェクト リポジトリのクローンを作成します。
git clone https://github.com/dirkjbreeuwer/gpt-automated-web-scraper
プロジェクト ディレクトリに移動します。
cd gpt-automated-web-scraper
必要な Python パッケージをインストールします。
pip install -r requirements.txt
OpenAI GPT-4 API キーを設定します。
OpenAI のドキュメントに従って API キーを取得します。
プロジェクト ディレクトリにある.env.example
というファイルの名前を.env
に変更します。
次の行を.env
ファイルに追加し、 YOUR_API_KEY
実際の API キーに置き換えます。
OPENAI_API_KEY=YOUR_API_KEY
AI Web Scraper を使用するには、必要なコマンドライン引数を指定してgpt-scraper.py
スクリプトを実行します。
次のコマンドライン引数が使用可能です。
--source
: スクレイピングする HTML ソースへの URL またはローカル パス。--source-type
: ソースのタイプ。 "url"
または"file"
のいずれかを指定します。--requirements
: スクレイピングのためのユーザー定義の要件。--target-string
: GPT-4 の最大トークン制限 (4,000 トークン) のため、AI モデルは、必要なデータが配置されている HTML のより小さいサブセットを処理します。ターゲット文字列は、スクレイピングする Web サイト内で見つかるサンプル文字列である必要があります。AI Web Scraper を使用するためのコマンドの例をいくつか示します。
python3 gpt-scraper.py --source-type " url " --source " https://www.scrapethissite.com/pages/forms/ " --requirements " Print a JSON file with all the information available for the Chicago Blackhawks " --target-string " Chicago Blackhawks "
--source
、 --requirements
、および--target-string
の値を特定の値に置き換えます。
このプロジェクトは MIT ライセンスに基づいてライセンスされています。必要に応じて自由に変更して使用してください。