โปรเจ็กต์นี้เป็นเครื่องขูดเว็บที่ขับเคลื่อนด้วย AI ซึ่งช่วยให้คุณสามารถดึงข้อมูลจากแหล่ง HTML ตามความต้องการที่ผู้ใช้กำหนด มันสร้างรหัสขูดและดำเนินการเพื่อดึงข้อมูลที่ต้องการ
ก่อนที่จะรัน AI Web Scraper ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้งข้อกำหนดเบื้องต้นต่อไปนี้:
requirements.txt
โคลนที่เก็บโครงการ:
git clone https://github.com/dirkjbreeuwer/gpt-automated-web-scraper
นำทางไปยังไดเร็กทอรีโครงการ:
cd gpt-automated-web-scraper
ติดตั้งแพ็คเกจ Python ที่จำเป็น:
pip install -r requirements.txt
ตั้งค่าคีย์ OpenAI GPT-4 API:
รับคีย์ API จาก OpenAI โดยทำตามเอกสารประกอบ
เปลี่ยนชื่อไฟล์ชื่อ .env.example
เป็น .env
ในไดเร็กทอรีโปรเจ็กต์
เพิ่มบรรทัดต่อไปนี้ลงในไฟล์ .env
โดยแทนที่ YOUR_API_KEY
ด้วยคีย์ API จริงของคุณ:
OPENAI_API_KEY=YOUR_API_KEY
หากต้องการใช้ AI Web Scraper ให้เรียกใช้สคริปต์ gpt-scraper.py
พร้อมด้วยอาร์กิวเมนต์บรรทัดคำสั่งที่ต้องการ
อาร์กิวเมนต์บรรทัดคำสั่งต่อไปนี้พร้อมใช้งาน:
--source
: URL หรือพาธในเครื่องไปยังซอร์ส HTML ที่จะคัดลอก--source-type
: ประเภทของแหล่งที่มา ระบุ "url"
หรือ "file"
--requirements
: ข้อกำหนดที่ผู้ใช้กำหนดสำหรับการขูด--target-string
: เนื่องจากขีดจำกัดโทเค็นสูงสุดที่ GPT-4 (โทเค็น 4k) โมเดล AI จึงประมวลผลชุดย่อยที่เล็กกว่าของ HTML ซึ่งมีข้อมูลที่ต้องการอยู่ สตริงเป้าหมายควรเป็นสตริงตัวอย่างที่สามารถพบได้ภายในเว็บไซต์ที่คุณต้องการคัดลอกต่อไปนี้คือตัวอย่างคำสั่งสำหรับการใช้ AI Web Scraper:
python3 gpt-scraper.py --source-type " url " --source " https://www.scrapethissite.com/pages/forms/ " --requirements " Print a JSON file with all the information available for the Chicago Blackhawks " --target-string " Chicago Blackhawks "
แทนที่ค่าสำหรับ --source
, --requirements
และ --target-string
ด้วยค่าเฉพาะของคุณ
โครงการนี้ได้รับอนุญาตภายใต้ใบอนุญาต MIT คุณสามารถปรับเปลี่ยนและใช้งานได้ตามความต้องการของคุณ