المحتوى العملي: احصل على الأسماء الصينية والإنجليزية، وأسماء هونج كونج وتايوان، والمخرجين، وسنوات الإصدار، وتصنيفات الأفلام وتقييماتها لأفلام Douban's TOP250، وتخزين البيانات في قواعد البيانات والملفات. الرابط هو: https://movie.douban.com/top250?start=.
لقد قدمنا العديد من الطرق للزحف إلى بيانات صفحة الويب من قبل. فلنزحف إلى البيانات أدناه.
importreimportrequestsfrombs4importBeautifulSoupforiinrange(0,2):headers={# هذا يحاكي المتصفح للوصول إلى'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/52.0.2743.82Safari /537. 36','Host':'movie.douban.com'}res='https://movie.douban.com/top250?start='+str(25*i)#25 times r=requests.get(res ,headers=headers,timeout=10)# تعيين المهلة soup=BeautifulSoup(r.text,html.parser)#تعيين طريقة التحليل، يمكنك أيضًا الطباعة(soup)
الإخراج هو:
<!DOCTYPEhtml><htmlclass=ua-windowsua-webkit><head><metacontent=text/html;charset=utf-8http-equiv=Content-Type/><metacontent=webkitname=renderer/><metacontent=alwaysname=referrer /><metacontent=ok0wCgT20tBBg o9_zat2iAcimtN4Ftf5ccsh092Xeywname=google-site-verification><title>أفضل 250 فيلمًا من أفلام دوبان</title>.....</script><!--dae-web-movie--default-759d9f45f7-b69fc-->< script>_SPLITTEST =''</script></link></link></body></html>
نستخدم هنا وظيفة mad5() في وحدة hashlib في Python، رمز التحقق كما يلي إذا كنت قد قمت بالزحف إلى البيانات للتو، فيمكنك حذف هذه الخطوة.
MD5 هي خوارزمية تشفير شائعة الاستخدام في مجال أمان الكمبيوتر.
importhashlibdefvertifyupdate(html):md5=hashlib.md5()md5.update(html.encode(encoding='utf-8'))md5code=md5.hexdigest()print(md5code)old_html=''htlm_name='gp.txt 'ifos.path.exists(htlm_name):الذكاء Hopen(htlm_name,'r',encoding='utf-8')asf:old_html=f.read()ifmd5code==old_html:print('البيانات لم يتم تحديثها')returnFalseelse:withopen(htlm_name,'w',encoding= 'utf-8')asf:f.write(md5code)print('تم تحديث البيانات')returnTrue
تحتاج هذه الوظيفة إلى استيراد وحدة hashlib، ثم إنشاء كائن md5، وتمرير معلومات الصفحة الحالية، وتنفيذ عمليات MD5 على البيانات الواردة باستخدام طريقة updata().
ثم استخدم عبارة if لتحديد ما إذا كان الملف موجودًا، وإذا كان موجودًا، فاقرأ رمز MD5 الموجود فيه، ثم حدد ما إذا كان رمزا MD5 متماثلين أم لا. لقد تم تحديثه وتم تمرير رمز MD5 الجديد إلى الملف.
إن الزحف إلى البيانات هو الخطوة الأولى التي يتعين علينا القيام بها. إذا تم تخزين البيانات لفترة طويلة قبل استخدامها، فيجب اكتشافها. والجزء الأكثر إزعاجًا هو كيفية الحصول على بيانات أكثر دقة القسم التالي لنقم بتحليل البيانات.