لنبدأ بنفس الشيء كما كان من قبل، فلنتحدث عن أفكار إنشاء الزاحف والمعرفة التي يحتاجها الخبراء، يرجى تجاهلها.
أولاً، دعونا نفكر فيما نريد أن نفعله وندرج بعض المتطلبات البسيطة.
المتطلبات هي كما يلي:
1. محاكاة الوصول إلى موقع Zhihu الرسمي (http://www.zhihu.com/)
2. قم بتنزيل محتوى الصفحة المحدد، بما في ذلك: أهم محتوى اليوم، وأهم هذا الشهر، وتوصيات المحرر
3. تنزيل جميع الأسئلة والأجوبة في الفئات المحددة مثل: الاستثمار، البرمجة، الدورات الرسوبية
4. قم بتنزيل جميع الإجابات من المستجيب المحدد
5. سيكون من الأفضل أن يكون لدي وظيفة إعجاب بنقرة واحدة (حتى أتمكن من الإعجاب بجميع إجابات ليلين مرة واحدة. أنا ذكي جدًا!)
ثم يتم سرد المشاكل التقنية التي تحتاج إلى حل بإيجاز على النحو التالي:
1. محاكاة وصول المتصفح إلى صفحات الويب
2. التقط البيانات الرئيسية واحفظها محليًا
3. حل مشكلة التحميل الديناميكي في تصفح الويب
4. استخدم بنية شجرية للزحف على نطاق واسع إلى كل المحتوى الموجود على Zhihu
حسنًا، هذا كل ما أفكر فيه الآن.
والخطوة التالية هي التحضير.
1. تحديد لغة الزاحف: نظرًا لأنني كتبت سلسلة من دروس الزاحف من قبل (انقر هنا)، فإن Baidu Tieba، وموسوعة الأشياء المحرجة، واستعلام درجة جامعة شاندونغ، وما إلى ذلك كلها مكتوبة بلغة بايثون، لذلك قررت استخدام Java لكتابتها هذه المرة (إطعام بالكامل إذا لم يكن لديك نصف سنت، لماذا لا تتصل بي؟)
2. معرفة زاحف العلوم الشعبية: زاحف الويب، أو Web Spider، هو اسم حيوي للغاية. إذا تم تشبيه الإنترنت بشبكة العنكبوت، فإن العنكبوت هو عنكبوت يزحف على الويب. تبحث عناكب الويب عن صفحات الويب من خلال عناوين الارتباط الخاصة بها. للحصول على مقدمة مفصلة، الرجاء الضغط هنا.
3. قم بإعداد بيئة الزاحف: لن أخوض في تفاصيل حول تثبيت وتكوين Jdk وEclipse. هنا، يعد المتصفح الجيد مهمًا جدًا لبرامج الزحف، لأنك تحتاج أولاً إلى تصفح الويب لمعرفة مكان الأشياء التي تحتاجها، وعندها فقط يمكنك إخبار برامج الزحف الخاصة بك إلى أين تذهب وكيفية الزحف. أنا شخصياً أوصي بـ Firefox أو Google Chrome. إن وظائفهم المتمثلة في النقر بزر الماوس الأيمن لفحص العناصر وعرض التعليمات البرمجية المصدر قوية جدًا.
الآن نبدأ رحلة الزاحف الرسمية! ~ما الذي يجب أن أتحدث عنه على وجه التحديد؟ حسنًا، هذا سؤال دعني أفكر فيه