أداة قوية للزحف بايدو
الصينية المبسطة | الصينية التقليدية |
ابدأ بسرعة »
عرض الأمثلة · الإبلاغ عن مشكلة · طلب مطلب
يعد محرك البحث أداة قوية جدًا، وإذا أمكن دمج الأدوات الأخرى مع الوظائف القوية العديدة لمحرك البحث، فستصبح هذه الأدوات أكثر قوة. لكنني لم أجد حاليًا زاحفًا مفتوح المصدر يمكنه استخراج نتائج بحث محرك البحث بدقة. لذلك، كتبت هذا المشروع للزحف إلى محرك بحث بايدو: BaiduSpider.
مميزات BaiduSpider الفريدة:
إنه يوفر الوقت في استخراج البيانات ويعد مساعدة جيدة لإنشاء نموذج البيانات والتدريب في مشاريع التعلم العميق المماثلة.
استخراج البيانات بدقة وإزالة الإعلانات.
نتائج البحث كبيرة وشاملة، وتدعم أنواع بحث وأنواع إرجاع متعددة.
وبطبيعة الحال، لا يوجد مشروع مثالي. إن تطوير أي مشروع يتطلب مساعدة المجتمع. يمكنك مساعدة BaiduSpider على التقدم من خلال نشر مشكلة أو تقديم علاقات عامة! :يبتسم:
يتم إدراج بعض المستندات أو الأدوات المفيدة في قسم الشكر والتقدير في النهاية.
بعض المكتبات التبعية الرئيسية مفتوحة المصدر التي يستخدمها BaiduSpider.
لتثبيت BaiduSpider، يرجى اتباع الخطوات القليلة التالية.
قبل تثبيت BaiduSpider، يرجى التأكد من تثبيت Python3.6+
:
$ python --version
إذا كان الإصدار أقل من 3.6.0
، فيرجى الانتقال إلى موقع Python الرسمي لتنزيل Python وتثبيته.
pip
الرجاء الكتابة في سطر الأوامر:
$ pip install baiduspider
$ git clone [email protected]:BaiduSpider/BaiduSpider.git
# ...
$ python setup.py install
يمكنك استخدام الكود التالي للحصول على نتائج بحث الويب الخاصة بشركة Baidu من خلال BaiduSpider:
# 导入BaiduSpider
from baiduspider import BaiduSpider
from pprint import pprint
# 实例化BaiduSpider
spider = BaiduSpider ()
# 搜索网页
pprint ( spider . search_web ( query = 'Python' ))
لمزيد من العينات والتكوينات، يرجى الرجوع إلى الوثائق
برجاء الرجوع إلى المشكلات الافتتاحية للاطلاع على أحدث خطط المشروع والمشكلات المعروفة.
إن مساهمات المجتمع هي روح المشاريع مفتوحة المصدر وهي أيضًا الطريق لمجتمع المصادر المفتوحة بأكمله للتعلم والتواصل واكتساب الإلهام. ونحن نرحب بشدة بأي شخص للمشاركة في تطوير وصيانة هذا المشروع.
الخطوات المحددة للمشاركة هي كما يلي:
git checkout -b NewFeatures
)git commit -m 'Add some AmazingFeature'
)git push origin username/BaiduSpider
) هذا المشروع مفتوح المصدر ويعتمد على GPL-V3
، يرجى مراجعة LICENSE
للحصول على التفاصيل.
samzhangjy - @samzhangjy - [email protected]
رابط المشروع: https://github.com/BaiduSpider/BaiduSpider
هذا المشروع لأغراض تعليمية فقط ولا يمكن استخدامه لأغراض تجارية أو للزحف إلى كميات كبيرة من بيانات بايدو. بالإضافة إلى ذلك، يستخدم هذا المشروع اتفاقية حقوق النشر GPL-V3
، مما يعني أن أي مشاريع أخرى تتضمن (استخدام) هذا المشروع يجب أن تكون مفتوحة المصدر وتشير إلى المصدر، ولا يتحمل مؤلف هذا المشروع أي مخاطر قانونية ناجمة عن سوء الاستخدام. ونشير هنا إلى أن المخالفين يتحملون العواقب على مسؤوليتهم الخاصة.