هذا المشروع عبارة عن أداة استخراج ويب تعمل بالذكاء الاصطناعي وتسمح لك باستخراج المعلومات من مصادر HTML بناءً على المتطلبات المحددة من قبل المستخدم. يقوم بإنشاء كود تجريف وتنفيذه لاسترداد البيانات المطلوبة.
قبل تشغيل AI Web Scraper، تأكد من تثبيت المتطلبات الأساسية التالية:
requirements.txt
استنساخ مستودع المشروع:
git clone https://github.com/dirkjbreeuwer/gpt-automated-web-scraper
انتقل إلى دليل المشروع:
cd gpt-automated-web-scraper
قم بتثبيت حزم بايثون المطلوبة:
pip install -r requirements.txt
قم بإعداد مفتاح OpenAI GPT-4 API:
احصل على مفتاح API من OpenAI باتباع الوثائق الخاصة بهم.
أعد تسمية الملف المسمى .env.example
إلى .env
في دليل المشروع.
أضف السطر التالي إلى ملف .env
، مع استبدال YOUR_API_KEY
بمفتاح API الفعلي الخاص بك:
OPENAI_API_KEY=YOUR_API_KEY
لاستخدام AI Web Scraper، قم بتشغيل البرنامج النصي gpt-scraper.py
باستخدام وسيطات سطر الأوامر المطلوبة.
تتوفر وسيطات سطر الأوامر التالية:
--source
: عنوان URL أو المسار المحلي لمصدر HTML المراد استخراجه.--source-type
: نوع المصدر. حدد إما "url"
أو "file"
.--requirements
: المتطلبات المحددة من قبل المستخدم للكشط.--target-string
: نظرًا للحد الأقصى للرمز المميز لـ GPT-4 (رموز 4k)، يقوم نموذج الذكاء الاصطناعي بمعالجة مجموعة فرعية أصغر من HTML حيث توجد البيانات المطلوبة. يجب أن تكون السلسلة المستهدفة عبارة عن سلسلة نموذجية يمكن العثور عليها داخل موقع الويب الذي تريد استخلاصه.فيما يلي بعض الأمثلة على الأوامر لاستخدام AI Web Scraper:
python3 gpt-scraper.py --source-type " url " --source " https://www.scrapethissite.com/pages/forms/ " --requirements " Print a JSON file with all the information available for the Chicago Blackhawks " --target-string " Chicago Blackhawks "
استبدل قيم --source
و --requirements
و --target-string
بقيمك المحددة.
هذا المشروع مرخص بموجب ترخيص MIT. لا تتردد في تعديله واستخدامه وفقا لاحتياجاتك.