الإنجليزية | 中文 | 日本語 | 한국어 | рсتمر | Türkçe
Scrapegraphai هي مكتبة Python التي تستخدم Web Drassing التي تستخدم LLM ومنطق الرسم البياني المباشر لإنشاء خطوط أنابيب تجريف لمواقع الويب والمستندات المحلية (XML ، HTML ، JSON ، MORPHDOWN ، إلخ).
فقط قل المعلومات التي تريد استخراجها وستفعل المكتبة من أجلك!
تتوفر الصفحة المرجعية لـ Scrapegraph-AAI على الصفحة الرسمية لـ PYPI: PYPI.
PIP تثبيت Scrapegraphai تثبيت الكاتب المسرحي
ملاحظة : يوصى بتثبيت المكتبة في بيئة افتراضية لتجنب النزاعات مع المكتبات الأخرى؟
المزيد من نماذج اللغة : يتم تثبيت نماذج لغوية إضافية ، مثل الألعاب النارية ، Groq ، الأنثروبور ، الوجه المعانقة ، ونقاط NVIDIA AI.
تتيح لك هذه المجموعة استخدام نماذج لغة إضافية مثل الألعاب النارية ، Groq ، Anthropic ، معا AI ، وجه المعانقة ، ونقاط نهاية NVIDIA AI.
PIP تثبيت Scrapegraphai [نماذج باللغة الأخرى]
الخيارات الدلالية : تتضمن هذه المجموعة أدوات للمعالجة الدلالية المتقدمة ، مثل GraphViz.
PIP تثبيت Scrapegraphai [أكثر اختيارات ديلقية]
خيارات المتصفحات : تتضمن هذه المجموعة أدوات/خدمات إضافية لإدارة المتصفح ، مثل BrowserBase.
PIP تثبيت Scrapegraphai [أكثر خيارات المتصفح]
هناك العديد من خطوط أنابيب الكشط القياسية التي يمكن استخدامها لاستخراج المعلومات من موقع ويب (أو ملف محلي).
الأكثر شيوعًا هو SmartScraperGraph
، الذي يستخرج المعلومات من صفحة واحدة مع إعطاء موجه المستخدم وعنوان URL المصدر.
استيراد jsonfrom scrapegraphai. } ، "مطول": صحيح ، "مقطوع الرأس": خطأ ، }# قم بإنشاء smartscrapergraph inctancesmart_scraper_graph = smartScraperGraph (proper = "ابحث عن بعض المعلومات حول ما تفعله الشركة ، الاسم والبريد الإلكتروني للاتصال. pipelineresult = smart_scraper_graph.run () print (json.dumps (النتيجة ، المسافة البادئة = 4))
سيكون الإخراج قاموسًا مثل ما يلي:
{"الشركة": "Scrapegraphai" ، "Name": "Scrapegraphai استخراج المحتوى من مواقع الويب والمستندات المحلية باستخدام LLM" ، "Contact_email": "[email protected]"}
هناك خطوط أنابيب أخرى يمكن استخدامها لاستخراج المعلومات من صفحات متعددة ، أو إنشاء برامج نصية للبيثون ، أو حتى إنشاء ملفات صوتية.
اسم خط الأنابيب | وصف |
---|---|
SmartScraperGraph | مكشطة من صفحة واحدة تحتاج فقط إلى موجه مستخدم ومصدر إدخال. |
SearchGraph | مكشطة متعددة الصفحات التي تستخرج المعلومات من أعلى نتائج البحث في محرك البحث. |
الكلام | مكشطة من صفحة واحدة تستخرج المعلومات من موقع ويب وإنشاء ملف صوتي. |
ScriptCreatorGraph | مكشطة من صفحة واحدة تستخرج المعلومات من موقع ويب وإنشاء نص Python. |
SmartScraperMultigraph | مكشطة متعددة الصفحات التي تستخرج المعلومات من صفحات متعددة أعطت موجهًا واحدًا وقائمة من المصادر. |
scriptCreatormultigraph | مكشطة متعددة الصفحات التي تنشئ البرنامج النصي Python لاستخراج المعلومات من صفحات ومصادر متعددة. |
لكل من هذه الرسوم البيانية هناك نسخة متعددة. يسمح بإجراء مكالمات LLM بالتوازي.
من الممكن استخدام LLM مختلف من خلال واجهات برمجة التطبيقات ، مثل Openai و Groq أو Azure و Gemini أو النماذج المحلية باستخدام Ollama .
تذكر أن تقوم بتثبيت Ollama وتنزيل النماذج باستخدام أمر Ollama Pull ، إذا كنت ترغب في استخدام النماذج المحلية.
العرض التجريبي الرسمي:
جربه مباشرة على الويب باستخدام Google Colab:
يمكن العثور على وثائق Scrapegraphai هنا.
تحقق من docusaurus هنا.
نجمع مقاييس الاستخدام المجهولة لتحسين جودة الحزمة وتجربة المستخدم. تساعدنا البيانات على تحديد أولويات التحسينات وضمان التوافق. إذا كنت ترغب في إلغاء الاشتراك ، فقم بتعيين متغير البيئة scrapegraphai_telemetry_enabled = false. لمزيد من المعلومات ، يرجى الرجوع إلى الوثائق هنا.
إذا كنت قد استخدمت مكتبتنا لأغراض البحث ، فيرجى اقتباسنا من المرجع التالي:
@misc{scrapegraph-ai,
author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}