Proyek ini adalah web scraper bertenaga AI yang memungkinkan Anda mengekstrak informasi dari sumber HTML berdasarkan persyaratan yang ditentukan pengguna. Ini menghasilkan kode pengikisan dan mengeksekusinya untuk mengambil data yang diinginkan.
Sebelum menjalankan AI Web Scraper, pastikan Anda telah menginstal prasyarat berikut:
requirements.txt
Kloning repositori proyek:
git clone https://github.com/dirkjbreeuwer/gpt-automated-web-scraper
Arahkan ke direktori proyek:
cd gpt-automated-web-scraper
Instal paket Python yang diperlukan:
pip install -r requirements.txt
Siapkan kunci API OpenAI GPT-4:
Dapatkan kunci API dari OpenAI dengan mengikuti dokumentasinya.
Ganti nama file bernama .env.example
menjadi .env
di direktori proyek.
Tambahkan baris berikut ke file .env
, ganti YOUR_API_KEY
dengan kunci API Anda yang sebenarnya:
OPENAI_API_KEY=YOUR_API_KEY
Untuk menggunakan AI Web Scraper, jalankan skrip gpt-scraper.py
dengan argumen baris perintah yang diinginkan.
Argumen baris perintah berikut tersedia:
--source
: URL atau jalur lokal ke sumber HTML yang akan dikikis.--source-type
: Jenis sumber. Tentukan "url"
atau "file"
.--requirements
: Persyaratan yang ditentukan pengguna untuk pengikisan.--target-string
: Karena batas token maksimum GPT-4 (token 4k), model AI memproses subset HTML yang lebih kecil tempat data yang diinginkan berada. String target harus berupa string contoh yang dapat ditemukan dalam situs web yang ingin Anda kikis.Berikut beberapa contoh perintah untuk menggunakan AI Web Scraper:
python3 gpt-scraper.py --source-type " url " --source " https://www.scrapethissite.com/pages/forms/ " --requirements " Print a JSON file with all the information available for the Chicago Blackhawks " --target-string " Chicago Blackhawks "
Ganti nilai --source
, --requirements
, dan --target-string
dengan nilai spesifik Anda.
Proyek ini dilisensikan di bawah Lisensi MIT. Jangan ragu untuk memodifikasi dan menggunakannya sesuai kebutuhan Anda.