Python學習網路爬蟲主要分3個大的版塊:抓取,分析,存儲
另外,比較常用的爬蟲框架Scrapy,這裡最後也詳細介紹一下。
首先列舉一下本人總結的相關文章,這些涵蓋了入門網路爬蟲所需的基本概念和技巧:寧哥的小站-網路爬蟲
當我們在瀏覽器中輸入url後回車,後台會發生什麼事?例如你輸入http://www.lining0806.com/,就會看到寧哥的小站首頁。
簡單來說這段過程發生了以下四個步驟:
網路爬蟲要做的,簡單來說,就是實現瀏覽器的功能。透過指定url,直接傳回給用戶所需的數據,而不需要一步步人工去操縱瀏覽器獲取。
這一步,你要先明確要得到的內容是什麼?是HTML原始碼,還是Json格式的字串等。
抓取大多數情況屬於get請求,即直接從對方伺服器取得資料。
首先,Python中自備urllib及urllib2這兩個模組,基本上能滿足一般的頁面抓取。另外,requests也是非常有用的包,與此類似的,還有httplib2等等。
Requests:
import requests
response = requests.get(url)
content = requests.get(url).content
print "response headers:", response.headers
print "content:", content
Urllib2:
import urllib2
response = urllib2.urlopen(url)
content = urllib2.urlopen(url).read()
print "response headers:", response.headers
print "content:", content
Httplib2:
import httplib2
http = httplib2.Http()
response_headers, content = http.request(url, 'GET')
print "response headers:", response_headers
print "content:", content
此外,對於有查詢欄位的url,get請求一般會將來請求的資料附在url之後,以?分割url和傳輸數據,多個參數用&連接。
data = {'data1':'XXXXX', 'data2':'XXXXX'}
Requests:data为dict,json
import requests
response = requests.get(url=url, params=data)
Urllib2:data为string
import urllib, urllib2
data = urllib.urlencode(data)
full_url = url+'?'+data
response = urllib2.urlopen(full_url)
相關參考:網易新聞排行榜抓取回顧
參考項目:網路爬蟲最基本的爬蟲:爬取網易新聞排行榜
2.1 使用表單登陸
這種情況屬於post請求,即先向伺服器發送表單數據,伺服器再將傳回的cookie存入本地。
data = {'data1':'XXXXX', 'data2':'XXXXX'}
Requests:data为dict,json
import requests
response = requests.post(url=url, data=data)
Urllib2:data为string
import urllib, urllib2
data = urllib.urlencode(data)
req = urllib2.Request(url=url, data=data)
response = urllib2.urlopen(req)
2.2 使用cookie登陸
使用cookie登陸,伺服器會認為你是已登陸的用戶,所以就會回傳給你一個已登陸的內容。因此,需要驗證碼的情況可以使用帶有驗證碼登陸的cookie解決。
import requests
requests_session = requests.session()
response = requests_session.post(url=url_login, data=data)
若存在驗證碼,此時採用response = requests_session.post(url=url_login, data=data)是不行的,做法應如下:
response_captcha = requests_session.get(url=url_login, cookies=cookies)
response1 = requests.get(url_login) # 未登陆
response2 = requests_session.get(url_login) # 已登陆,因为之前拿到了Response Cookie!
response3 = requests_session.get(url_results) # 已登陆,因为之前拿到了Response Cookie!
相關參考:網路爬蟲-驗證碼登陸
參考項目:網路爬蟲用戶名密碼及驗證碼登陸:爬取知乎網站
3.1 使用代理
適用情況:限制IP位址狀況,也可解決因「頻繁點擊」而需要輸入驗證碼登陸的情況。
這種情況最好的方法就是維護一個代理IP池,網路上有很多免費的代理IP,良莠不齊,可以透過篩選找到能用的。對於「頻繁點擊」的情況,我們還可以透過限制爬蟲造訪網站的頻率來避免被網站禁掉。
proxies = {'http':'http://XX.XX.XX.XX:XXXX'}
Requests:
import requests
response = requests.get(url=url, proxies=proxies)
Urllib2:
import urllib2
proxy_support = urllib2.ProxyHandler(proxies)
opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
urllib2.install_opener(opener) # 安装opener,此后调用urlopen()时都会使用安装过的opener对象
response = urllib2.urlopen(url)
3.2 時間設定
適用情況:限制頻率情況。
Requests,Urllib2都可以使用time函式庫的sleep()函數:
import time
time.sleep(1)
3.3 偽裝成瀏覽器,或反“反盜鏈”
有些網站會檢查你是不是真的瀏覽器訪問,還是機器自動訪問的。這種情況,加上User-Agent,表示你是瀏覽器存取即可。有時也會檢查是否帶Referer資訊還會檢查你的Referer是否合法,一般再加上Referer。
headers = {'User-Agent':'XXXXX'} # 伪装成浏览器访问,适用于拒绝爬虫的网站
headers = {'Referer':'XXXXX'}
headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'}
Requests:
response = requests.get(url=url, headers=headers)
Urllib2:
import urllib, urllib2
req = urllib2.Request(url=url, headers=headers)
response = urllib2.urlopen(req)
不多說。
def multi_session(session, *arg):
retryTimes = 20
while retryTimes>0:
try:
return session.post(*arg)
except:
print '.',
retryTimes -= 1
或者
def multi_open(opener, *arg):
retryTimes = 20
while retryTimes>0:
try:
return opener.open(*arg)
except:
print '.',
retryTimes -= 1
這樣我們就可以使用multi_session或multi_open對爬蟲抓取的session或opener進行保持。
這裡針對華爾街見聞進行並行抓取的實驗對比:Python多進程抓取與Java單線程和多線程抓取
相關參考:關於Python和Java的多進程多執行緒計算方法對比
對於「載入更多」情況,使用Ajax來傳輸很多資料。
它的工作原理是:從網頁的url載入網頁的原始碼之後,會在瀏覽器裡執行JavaScript程式。這些程式會載入更多的內容,「填入」到網頁裡。這就是為什麼如果你直接去爬網頁本身的url,你會找不到頁面的實際內容。
這裡,若使用Google Chrome分析」請求「對應的連結(方法:右鍵→審查元素→Network→清空,點選」載入更多「,出現對應的GET連結尋找Type為text/html的,點選,查看get參數或複製Request URL),循環過程。
Selenium是一款自動化測試工具。它能實現操縱瀏覽器,包括字元填充、滑鼠點擊、取得元素、頁面切換等一系列操作。總之,凡是瀏覽器能做的事,Selenium都能夠做到。
這裡列出在給定城市列表後,使用selenium來動態抓取去哪裡網的票價資訊的代碼。
參考項目:網路爬蟲之Selenium使用代理登陸:爬取去哪裡網站
對於網站有驗證碼的情況,我們有三種方法:
使用代理和使用cookie登陸之前已經講過,下面講一下驗證碼識別。
可以利用開源的Tesseract-OCR系統進行驗證碼圖片的下載及識別,將辨識的字元傳到爬蟲系統進行模擬登陸。當然也可以將驗證碼圖片上傳到打碼平台上進行辨識。如果不成功,可以再次更新驗證碼識別,直到成功為止。
參考項目:驗證碼識別項目第一版:Captcha1
爬取有兩個需要注意的問題:
抓取之後就是對抓取的內容進行分析,你需要什麼內容,就從中提煉出相關的內容來。
常見的分析工具有正規表示式,BeautifulSoup,lxml等等。
分析出我們需要的內容之後,接下來就是儲存了。
我們可以選擇存入文字文件,也可以選擇存入MySQL或MongoDB資料庫等。
儲存有兩個需要注意的問題:
Scrapy是一個基於Twisted的開源的Python爬蟲框架,在產業中應用非常廣泛。
相關內容可以參考基於Scrapy網路爬蟲的搭建,同時給出這篇文章介紹的微信搜尋爬取的項目代碼,給大家作為學習參考。
參考項目:使用Scrapy或Requests遞歸抓取微信搜尋結果
好的網路爬蟲,首先需要遵守Robots協議。 Robots協議(也稱為爬蟲協議、機器人協議等)的全名是「網路爬蟲排除標準」(Robots Exclusion Protocol),網站透過Robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。
在網站根目錄下放一個robots.txt文字檔案(如https://www.taobao.com/robots.txt ),裡面可以指定不同的網路爬蟲能造訪的頁面和禁止造訪的頁面,指定的頁面由正規則表達式表示。網路爬蟲在採集這個網站之前,先取得這個robots.txt文字文件,然後解析到其中的規則,然後根據規則來擷取網站的資料。
User-agent: 指定对哪些爬虫生效
Disallow: 指定不允许访问的网址
Allow: 指定允许访问的网址
注意: 一個英文要大寫,冒號是英文狀態下,冒號後面有一個空格,"/"代表整個網站
禁止所有机器人访问
User-agent: *
Disallow: /
允许所有机器人访问
User-agent: *
Disallow:
禁止特定机器人访问
User-agent: BadBot
Disallow: /
允许特定机器人访问
User-agent: GoodBot
Disallow:
禁止访问特定目录
User-agent: *
Disallow: /images/
仅允许访问特定目录
User-agent: *
Allow: /images/
Disallow: /
禁止访问特定文件
User-agent: *
Disallow: /*.html$
仅允许访问特定文件
User-agent: *
Allow: /*.html$
Disallow: /