PythonSpiderNotes下載 - PythonSpiderNotes原始碼下載

PythonSpiderNotes

Python

1.0.0

下載

Python入門網頁爬蟲之精華版

Python學習網路爬蟲主要分3個大的版塊：抓取，分析，存儲

另外，比較常用的爬蟲框架Scrapy，這裡最後也詳細介紹一下。

首先列舉一下本人總結的相關文章，這些涵蓋了入門網路爬蟲所需的基本概念和技巧：寧哥的小站-網路爬蟲

當我們在瀏覽器中輸入url後回車，後台會發生什麼事？例如你輸入http://www.lining0806.com/，就會看到寧哥的小站首頁。

簡單來說這段過程發生了以下四個步驟：

尋找網域名稱對應的IP位址。
向IP對應的伺服器發送請求。
伺服器回應請求，發回網頁內容。
瀏覽器解析網頁內容。

網路爬蟲要做的，簡單來說，就是實現瀏覽器的功能。透過指定url，直接傳回給用戶所需的數據，而不需要一步步人工去操縱瀏覽器獲取。

抓取

這一步，你要先明確要得到的內容是什麼？是HTML原始碼，還是Json格式的字串等。

1. 最基本的抓取

抓取大多數情況屬於get請求，即直接從對方伺服器取得資料。

首先，Python中自備urllib及urllib2這兩個模組，基本上能滿足一般的頁面抓取。另外，requests也是非常有用的包，與此類似的，還有httplib2等等。

 Requests：
	import requests
	response = requests.get(url)
	content = requests.get(url).content
	print "response headers:", response.headers
	print "content:", content
Urllib2：
	import urllib2
	response = urllib2.urlopen(url)
	content = urllib2.urlopen(url).read()
	print "response headers:", response.headers
	print "content:", content
Httplib2：
	import httplib2
	http = httplib2.Http()
	response_headers, content = http.request(url, 'GET')
	print "response headers:", response_headers
	print "content:", content

此外，對於有查詢欄位的url，get請求一般會將來請求的資料附在url之後，以?分割url和傳輸數據，多個參數用&連接。

 data = {'data1':'XXXXX', 'data2':'XXXXX'}
Requests：data为dict，json
	import requests
	response = requests.get(url=url, params=data)
Urllib2：data为string
	import urllib, urllib2    
	data = urllib.urlencode(data)
	full_url = url+'?'+data
	response = urllib2.urlopen(full_url)

相關參考：網易新聞排行榜抓取回顧

參考項目：網路爬蟲最基本的爬蟲：爬取網易新聞排行榜

2. 對於登陸情況的處理

2.1 使用表單登陸

這種情況屬於post請求，即先向伺服器發送表單數據，伺服器再將傳回的cookie存入本地。

 data = {'data1':'XXXXX', 'data2':'XXXXX'}
Requests：data为dict，json
	import requests
	response = requests.post(url=url, data=data)
Urllib2：data为string
	import urllib, urllib2    
	data = urllib.urlencode(data)
	req = urllib2.Request(url=url, data=data)
	response = urllib2.urlopen(req)

2.2 使用cookie登陸

使用cookie登陸，伺服器會認為你是已登陸的用戶，所以就會回傳給你一個已登陸的內容。因此，需要驗證碼的情況可以使用帶有驗證碼登陸的cookie解決。

 import requests			
requests_session = requests.session() 
response = requests_session.post(url=url_login, data=data)

若存在驗證碼，此時採用response = requests_session.post(url=url_login, data=data)是不行的，做法應如下：

 response_captcha = requests_session.get(url=url_login, cookies=cookies)
response1 = requests.get(url_login) # 未登陆
response2 = requests_session.get(url_login) # 已登陆，因为之前拿到了Response Cookie！
response3 = requests_session.get(url_results) # 已登陆，因为之前拿到了Response Cookie！

相關參考：網路爬蟲-驗證碼登陸

參考項目：網路爬蟲用戶名密碼及驗證碼登陸：爬取知乎網站

3. 對於反爬蟲機制的處理

3.1 使用代理

適用情況：限制IP位址狀況，也可解決因「頻繁點擊」而需要輸入驗證碼登陸的情況。

這種情況最好的方法就是維護一個代理IP池，網路上有很多免費的代理IP，良莠不齊，可以透過篩選找到能用的。對於「頻繁點擊」的情況，我們還可以透過限制爬蟲造訪網站的頻率來避免被網站禁掉。

 proxies = {'http':'http://XX.XX.XX.XX:XXXX'}
Requests：
	import requests
	response = requests.get(url=url, proxies=proxies)
Urllib2：
	import urllib2
	proxy_support = urllib2.ProxyHandler(proxies)
	opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
	urllib2.install_opener(opener) # 安装opener，此后调用urlopen()时都会使用安装过的opener对象
	response = urllib2.urlopen(url)

3.2 時間設定

適用情況：限制頻率情況。

Requests，Urllib2都可以使用time函式庫的sleep()函數：

 import time
time.sleep(1)

3.3 偽裝成瀏覽器，或反“反盜鏈”

有些網站會檢查你是不是真的瀏覽器訪問，還是機器自動訪問的。這種情況，加上User-Agent，表示你是瀏覽器存取即可。有時也會檢查是否帶Referer資訊還會檢查你的Referer是否合法，一般再加上Referer。

 headers = {'User-Agent':'XXXXX'} # 伪装成浏览器访问，适用于拒绝爬虫的网站
headers = {'Referer':'XXXXX'}
headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'}
Requests：
	response = requests.get(url=url, headers=headers)
Urllib2：
	import urllib, urllib2   
	req = urllib2.Request(url=url, headers=headers)
	response = urllib2.urlopen(req)

4. 對於斷線重連

不多說。

 def multi_session(session, *arg):
	retryTimes = 20
	while retryTimes>0:
		try:
			return session.post(*arg)
		except:
			print '.',
			retryTimes -= 1

或者

 def multi_open(opener, *arg):
	retryTimes = 20
	while retryTimes>0:
		try:
			return opener.open(*arg)
		except:
			print '.',
			retryTimes -= 1

這樣我們就可以使用multi_session或multi_open對爬蟲抓取的session或opener進行保持。

5. 多進程抓取

這裡針對華爾街見聞進行並行抓取的實驗對比：Python多進程抓取與Java單線程和多線程抓取

相關參考：關於Python和Java的多進程多執行緒計算方法對比

6. 對於Ajax請求的處理

對於「載入更多」情況，使用Ajax來傳輸很多資料。

它的工作原理是：從網頁的url載入網頁的原始碼之後，會在瀏覽器裡執行JavaScript程式。這些程式會載入更多的內容，「填入」到網頁裡。這就是為什麼如果你直接去爬網頁本身的url，你會找不到頁面的實際內容。

這裡，若使用Google Chrome分析」請求「對應的連結(方法：右鍵→審查元素→Network→清空，點選」載入更多「，出現對應的GET連結尋找Type為text/html的，點選，查看get參數或複製Request URL)，循環過程。

如果「請求」之前有頁面，依據上一步的網址進行分析推導第1頁。以此類推，抓取抓Ajax位址的資料。
對傳回的json格式資料(str)進行正規比對。 json格式資料中，需從'uxxxx'形式的unicode_escape編碼轉換成u'uxxxx'的unicode編碼。

7. 自動化測試工具Selenium

Selenium是一款自動化測試工具。它能實現操縱瀏覽器，包括字元填充、滑鼠點擊、取得元素、頁面切換等一系列操作。總之，凡是瀏覽器能做的事，Selenium都能夠做到。

這裡列出在給定城市列表後，使用selenium來動態抓取去哪裡網的票價資訊的代碼。

參考項目：網路爬蟲之Selenium使用代理登陸：爬取去哪裡網站

8. 驗證碼識別

對於網站有驗證碼的情況，我們有三種方法：

使用代理，更新IP。
使用cookie登陸。
驗證碼識別。

使用代理和使用cookie登陸之前已經講過，下面講一下驗證碼識別。

可以利用開源的Tesseract-OCR系統進行驗證碼圖片的下載及識別，將辨識的字元傳到爬蟲系統進行模擬登陸。當然也可以將驗證碼圖片上傳到打碼平台上進行辨識。如果不成功，可以再次更新驗證碼識別，直到成功為止。

參考項目：驗證碼識別項目第一版：Captcha1

爬取有兩個需要注意的問題：

如何監控一系列網站的更新情況，也就是說，如何進行增量式爬取？
對於海量數據，如何實現分散式爬取？

分析

抓取之後就是對抓取的內容進行分析，你需要什麼內容，就從中提煉出相關的內容來。

常見的分析工具有正規表示式，BeautifulSoup，lxml等等。

儲存

分析出我們需要的內容之後，接下來就是儲存了。

我們可以選擇存入文字文件，也可以選擇存入MySQL或MongoDB資料庫等。

儲存有兩個需要注意的問題：

如何進行網頁去重？
內容以什麼形式儲存？

Scrapy

Scrapy是一個基於Twisted的開源的Python爬蟲框架，在產業中應用非常廣泛。

相關內容可以參考基於Scrapy網路爬蟲的搭建，同時給出這篇文章介紹的微信搜尋爬取的項目代碼，給大家作為學習參考。

參考項目：使用Scrapy或Requests遞歸抓取微信搜尋結果

Robots協議

好的網路爬蟲，首先需要遵守Robots協議。 Robots協議（也稱為爬蟲協議、機器人協議等）的全名是「網路爬蟲排除標準」（Robots Exclusion Protocol），網站透過Robots協議告訴搜尋引擎哪些頁面可以抓取，哪些頁面不能抓取。

在網站根目錄下放一個robots.txt文字檔案（如https://www.taobao.com/robots.txt ），裡面可以指定不同的網路爬蟲能造訪的頁面和禁止造訪的頁面，指定的頁面由正規則表達式表示。網路爬蟲在採集這個網站之前，先取得這個robots.txt文字文件，然後解析到其中的規則，然後根據規則來擷取網站的資料。

1. Robots協議規則

 User-agent: 指定对哪些爬虫生效
Disallow: 指定不允许访问的网址
Allow: 指定允许访问的网址

注意: 一個英文要大寫，冒號是英文狀態下，冒號後面有一個空格，"/"代表整個網站

2. Robots協議舉例

禁止所有机器人访问
	User-agent: *
	Disallow: /
允许所有机器人访问
	User-agent: *
	Disallow: 
禁止特定机器人访问
	User-agent: BadBot
	Disallow: /
允许特定机器人访问
	User-agent: GoodBot
	Disallow: 
禁止访问特定目录
	User-agent: *
	Disallow: /images/
仅允许访问特定目录
	User-agent: *
	Allow: /images/
	Disallow: /
禁止访问特定文件
	User-agent: *
	Disallow: /*.html$
仅允许访问特定文件
	User-agent: *
	Allow: /*.html$
	Disallow: /

展開

附加信息

版本 1.0.0
類型 Python
更新時間 2024-12-27
大小 7.37MB
來自於 Github

相關應用

Nuitka

2024-12-14
Google Blog Converters(部落格資料轉換器)

2009-05-24
azure storage python

2024-12-15
repository guide

2024-12-16
Poker Pro

2024-12-16
datamule python

2024-11-08

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Nuitka

Python

1.0.0
Google Blog Converters(部落格資料轉換器)

Python

1.0 R54
azure storage python

Python

v2.1.0
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部