هذا مكشطة ويب لبحث Sina Weibo بواسطة الكلمات الرئيسية
هناك بعض الكاشطات سينا ويبو. ومع ذلك ، يتم تنفيذها جميعًا مع Weibo API. يحد Sina Weibo من كمية البيانات التي يمكن الحصول عليها كل ساعة ويوم وشهر إذا تم استخدام API. هذا مكشطة على شبكة الإنترنت للبحث في Sina Weibo بواسطة الكلمات الرئيسية التي يتم تنفيذها بواسطة ترميز URL النقي بحيث تحاكي متصفحًا حقيقيًا ، وتنتقل إلى الصفحة والوصول إلى البيانات. يتخلص من الحدود. من الممكن أن يتيح لك Weibo إدخال رمز التحقق لإثبات أنك لست جهازًا ، ولكنه ليس في كثير من الأحيان.
Xuzhou يين. الموقع الشخصي: www.xuzhouyin.com
فتح المحطة الطرفية ، وانتقل إلى الدليل حيث تريد تخزين البرنامج ، ثم اكتب git clone address
لتنزيل البرنامج
pip install selenium
pip install time
pip install bs4
pip install urllib
pip install datetime
pip install unicodecsv
يحد Sina Weibo من إذن ميزة البحث التي قام بها المستخدمون الذين قاموا بتسجيل الدخول فقط إلى استخدام البحث المتقدم (مثل البحث مع فترة زمنية محددة). لذا يرجى التسجيل للحصول على حساب Sina Weibo وتسجيل الدخول من خلال متصفح Firefox (لذلك يوقع Firefox تلقائيًا في المرة القادمة). ثم ابحث عن مسار ملف تعريف Firefox (راجع إلى أين يتم تخزين ملف تعريف Firefox). واستبدل المسار في السطر 49 في scraper.py
.
ملف query.txt
لتخزين جميع الاستعلامات. يرجى إضافة استفسارات في شكل keyword;eventDate;startDate;endDate;pageofResult
، استعلام واحد لكل سطر. لا تدعم Sina Weibo ميزة "التمرير إلى الأسفل لعرض المزيد" في البحث. بدلاً من ذلك ، يفصل نتائج الاستعلام إلى صفحات. و sina يحد من صفحة النتائج إلى 50. لذا لكل استعلام ، يمكن للمستخدمين الوصول إلى 50 صفحة فقط من النتائج. وكل صفحة تحتوي على 20 وظيفة. لذلك ، لكل بحث يمكن الحصول على 1000 وظيفة كحد أقصى. ومع ذلك ، قد يكون هناك أقل من 1000 وظيفة من الاستعلام. لذا يرجى التحقق من الحد الأقصى لعدد الصفحات التي تحتوي على جميع نتائج الاستعلام .
قم بتشغيل البرنامج عن طريق كتابة python scraper.py
سيتم تنفيذ متصفح Firefox ، وتنقل إلى صفحة البحث مع الكلمات الرئيسية تلقائيًا.
ستكون النتائج في مجلد output
بتنسيق CSV. كل استعلام يولد ملف CSV واحد. لدى Excel مشكلة في عرض الأحرف الصينية. لذا فإن عرض محرر النصوص الآخر أفضل (إذا كنت تستخدم MAC ، فيمكنك استخدام الأرقام لفتح ملفات CSV).
في الوقت الحالي ، يدعم هذا البرنامج الاستعلام فقط مع الكلمة الرئيسية لغرضي الخاص. الجميع أحرار في استكشاف ميزات جديدة. يجب الإشارة إلى شيء واحد أنه لا يستخدم Sina Weibo API لأن Weibo يحد من كمية البيانات للاستعلام إذا تم استخدام API. يستخدم بشكل أساسي ملف تعريف الارتباط Broswer لتسجيل الدخول ، عنوان URL للبحث. يرجى إرسال طلب سحب إذا كنت قد قرأت للمساهمة.
تم ترخيص هذا المشروع بموجب ترخيص معهد ماساتشوستس للتكنولوجيا - راجع ملف الترخيص. للحصول على التفاصيل