-
【前言】網站分析的測量是網站分析入門的課程之一。我看到很多朋友提出了許多與之相關的問題,說明這個領域大家還是最想了解,也最拿捏不透的。準確掌握度量,才使準確掌握網站分析成為可能。
【正文】
今天的話題回到度量,因為度量是網站分析的骨骼,所謂皮之不存毛將焉附,沒有度量,網站分析就成為不了一門科學。測量也是最多朋友問起的問題,例如下面這個問題:
宋星老師:
有個困惑已久的問題。在GA裡面的跳出率和退出率的問題。
他們的意思都知道:但是當他們同時存在時,主要看哪個數據比較好?
如果是單獨出現時還行,但是在GA裡面是同時出現的。
這是一個好問題,體現了非常棒的探究精神,以及對直擊問題本質的敏銳觀察。類似的問題太多了,所以,重新發布一系列帖子是必不可少的。現在開始,我們從最基本的,一些容易讓我們混淆的度量概念開始。同時這篇文章不會再重複過去的內容(關於度量的內容,請大家看博客的網站地圖),而只是畫龍點睛,說一說大家最該了解的東西。
最基本的流量量測也有陷阱
Page view,visit和visitor是三個最基本的流量度量,這三個度量按照監測難度來區分是這樣的:
Visit 》 Visitor 》 Page View
原因在於:
Page view只是一個簡單計數,只是頁面中的網站分析監控程式碼被運行了一次,僅此而已。它最簡單。
Visitor同樣是一個簡單計數,是網站分析監測代碼識別了一個不同的cookie,或是一個不同的ip(對某些工具,沒有cookie的時候,用IP分辨visitor)來到了網站而已。但visitor肯定比page view複雜,因為它包含了對cookie或IP的記錄和判斷。
Visit代表某一個visitor一系列的網站存取動作,每個動作之間的間隔不超過特定的時間(例如不超過30分鐘)。它意味著判斷幾個事情:(1)要有一個visitor,如果判斷不出visitor,visit也就沒有意義;(2)要判斷page view或者其他網站分析工具能夠識別的網站訪問動作;(3)要辨識動作與動作之間的間隔時間。所以visit的判別最複雜。所以,我們在最早的用log file進行網站分析的時候,是沒有非常明確的visit的概念的,只有session的概念。
那麼,陷阱在哪裡呢?
Visitor和page view沒有什麼陷阱,它們兩個是簡單的計數度量,觸發了就觸發了,記錄下來即可。可是visit存在陷阱。這個陷阱在於以下幾種可能:
我在A網站訪問了20分鐘,第21分鐘的時候從A網站(例如CWA網站:http: //www.chinawebanalytics.cn )的連結(這個連結連結到B網站)跑到B網站,然後在25分鐘的時候,又從B網站的連結(這個連結指回A網站)回到A網站。這個過程中瀏覽器視窗並沒有關閉,那麼這個流程A網站有幾個visit?
我在A網站訪問了20分鐘,第21分鐘的時候關閉A網站的頁面,然後打開一個新的瀏覽器窗口,然後在25分鐘的時候又打開新窗口輸入A的網址回到A網站,這個過程中網站A有幾個visit?
我在A網站訪問了20分鐘,第21分鐘的時候關閉A網站的頁面,然後打開一個新的瀏覽器頁面,即Tab(注意,瀏覽器沒有關閉),然後在25分鐘的時候又打開新Tab輸入A的網址回到A網站,過程中網站A有幾個visit?
圖:Tab,偉大的Tab
我不想在這個裡跟大家討論這個三個問題的答案,歡迎大家在留言中討論,要提醒的一點是不同的網站分析工具對於這些過程的定義都不太一樣。所以,如果我們要選擇一個網站分析工具,我們最好讓供應商告訴我們他們對於這些基本測量的基本定義和監控方法是什麼。
不過這三個問題直接回答了我們下面的問題:
(1)為什麼Omniture SiteCatalyst監測到的visit只有Google Analytics的80%啊!
(2)為什麼Google Analytics的資料和我伺服器日誌的資料相差那麼遠!
如果它們的數據一樣我才會覺得奇怪呢!按下這些不同工具的不同差異不表(同類工具有些過大的差異當然可能意味著監測實施的不正確)。我想說的是,我們應該至少明白visit其實是非常複雜的度量,它絕對不像我們想像的那麼簡單。
因此,我們走出對這個度量的一般性理解,而進入一個根本性的問題——為什麼要設定「visit」這個度量?為什麼我們不用page view或是visitor就可以了?
如果你能把這個問題想清楚,我想才算是真正理解了visit。
圖:It's not as easy as you thought!
答案其實很簡單──狹義的網站分析(Web Analytics)是分析什麼的科學?是分析網站訪客行為的科學,因此落腳點是行為。所以,只有visitor肯定不行,visitor不附加上對應的行為,沒有意義。但是,如果行為是孤立的,沒有來龍去脈,同樣意義不大,所以只有page view同樣不行。 Visit是為此而建立的,是為了衡量一個visitor的一系列體現為page view的行為。它是一個橋樑,讓visitor和page view建立關係,也讓訪客和行為建立聯繫,並以資料的方式進行表達。
聽起來這是多麼藝術的一個過程。這就是網站分析的美。如果你細細平常一些為什麼背後的為什麼,你會發現原來一花一世界。
即使是基本度量,也並非都有統一的定義
什麼是質量,什麼是長短,什麼是速度,這些現實生活中我們常用到的度量都有世界統一的標準的定義和單位。可是,在網站分析的世界中,並不是所有的測量都有統一的定義。
這是因為網站分析還是一個非常新的學科。網站分析這門學科的名字最初其實也是不確定的。最早,人們用e-metrics(e度量),之後又有用web metrics(網站度量)的,直到最後越來越多的人開始用web analytics(網站分析),這門學科才有了正式的名字。
儘管學科名字被決定下來,但是學科內的許多測量還有這不同的解釋。例如bounce rate(蹦失率),這個測量至今仍存在兩種以上的常見解釋。除了解釋的不同,不同的監測工具對於一些度量的演算法也存在差異,例如上面所說的,對於如何辨識visitor,不同的工具就有不同的演算法,visit也是如此。
為了解決不一致產生的矛盾,部分聰明的網站分析工具提供者會提供一些能夠自訂度量的功能,可以讓用戶更加靈活的根據需要調整度量的定義和尺度,這客觀上極大的增加了網站分析的適應性,產生了很好的效果。
但是,定義不一致畢竟不是一件好事,尤其是對於一些基本度量。因此業界的一些組織也致力於建立一些國際標準,這些組織包括:英國發行量審計局(Britain's Audit Bureau of Circulation, www.abc.org.uk ),網站標準聯合產業委員會(the Joint Industry Committee for Web Standards, www.jicwebs.org )以及網站分析協會(the Web Analytics Association, www.webanalyticsassociation.org )。
對於不同的定義,最終可能的結果是,某一些被最多人使用的度量定義將成為業界約定俗成的定義,最終成為實施標準。
但,千萬別覺得一個網站分析工具的定義就代表了網站分析業界,那也許只是無數種定義和規定中的一種罷了。關鍵,是要理解這些測量存在的目的是什麼,以及它對應的網站在現實世界中的狀態是什麼。
最基本的度量構成複合度量
最基本的測量非常簡單,不足以描述更複雜的網站瀏覽行為,因此人們開始引入複合度量。所謂複合度量,就是多個基本度量應用四則運算組合而成的新度量。例如bounce rate,像是exit rate,像是PV / visit。
複合度量給新手朋友帶來了許多困擾。下面的文字希望能夠解決你們的困擾。
首先來看看Bounce Rate。 Bounce Rate稱為跳出率(Google Analytics),或是彈跳失率(China Web Analytics),你可以選擇任何一種叫法,大家應該都能聽得懂,我喜歡我發明的後者。
Bounce Rate一定要記住以下幾點:
Bounce Rate不是衡量所有頁面的度量,而是衡量所有頁面僅僅作為landing page時間的度量。
它是一個特殊的度量。它可以衡量整個網站的表現,也可以用來衡量某個頁面作為landing page時的表現。即,它既是一個網站層級的度量,也是一個頁面層級的度量,關於這個,本文的後面再說。
不同的網站分析工具對它的定義不同。
它的公式不重要,它的目的和意義更重要。
現在我來談談它的目的是什麼。
Bounce Rate的目的非常明確,即幫助人們搞清楚訪客進入你的網站的第一印像如何。請注意,是第一印象,是從網站外部進入網站的第一印象。
在這個目的之下,人們開始想,該怎樣用一個度量來描述它呢?人們最先想到的,就是用你進入網站開始到離開網站的時間間隔。例如,你來到騰訊網,你隨便看了幾眼,然後啐了一口口水說,“草,壟斷”,然後就關了窗口,整個過程可能就5秒鐘。這說明這個網站給你的印像不佳。所以,用時間來描述真是一個好主意。這是人們最初設想的方法,也是Avinash先生最初在他的部落格上提倡的方法。
可是這個方法,存在著一個很大的問題,那就是時間問題。你可能討厭騰訊網,但由於網頁tab的存在,你可能並不急於關閉它,而是打開一個新的網頁,例如打開360殺毒的首頁,津津有味的讀起週鴻禕先生抨擊騰訊網的“檄文”,然後半小時後才發現怎麼「噁心」的騰訊網還開著,這才關掉它。這個時候,時間來判斷就存在偏差。另外一個很大的問題是,網站分析工具對於時間的監控和我們真實的在網頁上瀏覽的時間並不可能完全一致。因此,時間方法來衡量網站第一印象,執行起來挺難。
但是人腦總是聰明的,雖然站在宇宙尺度上這樣的聰明不過是浮雲,和鳳姐的美貌程度不見得能有多大差異,但我們並不畏懼困難。因此,另一個想法誕生了——如果你進入這個網站的第一頁就覺得討厭,那麼你不太可能花時間繼續瀏覽這個網站的其他頁面,這就使bounce rate誕生了。 bounce rate衡量的是-只造訪一個頁面的造訪(visit)佔整體造訪(visit)的比例,或是只造訪一個頁面的訪客(visitor)佔整體訪客(visitor)的比例。至於何種數學定義並不重要,關鍵是,人們總算找到了一個跟時間無關的,而且容易計算的方法來衡量網站的第一印象。
這就是bounce rate的故事,所以bounce rate不用來衡量所有頁面的所有訪問,而只是用來衡量頁面作為landing page時候的訪問印象,因為landing page才是網站帶給訪客的第一印象。所以,你也應該明白:一個網站的每個頁面都有可能是landing page(因為搜尋引擎能夠把流量帶到你的網站的任何一個頁面上),但相對於不同的visit,每個頁面只有一部分可能是landing page——當且僅當這個visit進入網站訪問的第一個頁面是這個頁面時。
Exit Rate呢?則是另外一個故事。 Exit Rate衡量的是人們離開網站的行為。人們總要離開一個網站,雖然我想吉尼斯世界紀錄應該統計連續上網時間最長的人,但這個人畢竟也是會死的,所以即使他能100年持續訪問一個網站,他也終須離開他心愛的網站。再說,cookie也沒有那麼長的時限。因此,人們更多的從網站的什麼地方離開這個網站成為大家關心的問題。
Exit rate就是衡量這個事情的,說穿了,exit rate就是一個網頁作為網站出口的幾率大小。 exit rate=87%,就說明,經過這個頁面所有的訪問中,有87%的可能性從這個頁面離開網站。這個網站當然要承擔不能「留住」訪客的責任。
這樣看來,bounce rate和exit rate兩個測量被發明的初衷是沒有什麼關係的,它們各自衡量各自的,雖然很像,但其實邏輯完全不同。我剛學會網站分析的時候,也很疑惑,拼命想搞清楚這兩個度量的關係。現在看來,搞清這兩者的關係其實沒有太大意義,搞清楚什麼時候該用它們中的哪一個才更有意義。
所以,我們不要讓複合度量在數學上搞糊塗我們。我相信Google Analytics被發明出來的時候沒有想到人們最後會那麼精確計算這些複合度量,所以我們才會現在發現Google Analytics上有那麼多數字對不攏的情況。但是,這根本不妨礙我們分析,因為在什麼情況下該用什麼我們早已了然於心。
計數度量和複合度量
現在,總結一下什麼事計數度量,什麼事複合度量。計數量測(count)是指不需要計算的,以記錄個數、次數、時間長短等為目的的一元量測。 page view,visit,visitor都是計數度量,overall time on page,也是計數度量。計數度量不可以再拆分。
複合量測(calculate)是指由多個計數量測進行公式運算(一般是四則運算)組合而成的量測。例如,我們常用的衡量訪客造訪頁面廣度的測量——page view/visit,也就是用page view除以visit而得來。
計數度量和複合度量有涉及如何透過資料表達的問題。通常,網站分析對於度量具體數值的表達都是用計數的方法展現的,例如,網站在5月份的visit是34,567個,訪客是23,456個雲雲。計數度量常常都對應其資料報告的計數表達。
對於複合度量,同樣也用計數報告來表示,例如網站的bounce rate是13.3%。計數報告是最常見的網站分析報告。下面的報告就是典型的計數報告:
另一種報告稱為分佈報告,記錄了不同統計維度的分佈情況,例如圖D就是典型的分佈報告,標示了不同路徑長度所對應的visit的數量。
下圖也是一個典型的分佈報告,所展示的是不同時間長度的訪問的數量分佈:
計數報告和分佈報告都是網站分析工具常用的資料展示形式,在製作網站分析報告的時候,我們也同樣經常使用這兩種形式。可以說,計數和分佈是我們每天都要打交道的最常見模型。
好了,今天就談到這裡。大家如果有什麼想法,歡迎多留言!最後分享一個電影——《第三十六個故事》是台灣的文藝小品類型的電影,文藝腔調十足,但我覺得夠給力,想起了我以前開餐廳的歲月,推薦給喜歡“網站分析在中國」的女生們——當然,最好你們也能順帶喜歡我。
作者:宋星
文章來源: http://www.chinawebanalytics.cn/metrics-and-its-back-story-1/