正規表示式(Regular Expression)為字串模式匹配提供了一種高效、方便的方法。幾乎所有高階語言都提供了對正規表示式的支持,或提供了現成的程式碼庫供呼叫。本文以ASP環境中常見的處理任務為例,介紹正規表示式的應用技巧。
一、檢驗密碼和郵件地址的格式
我們的第一個實例示範正規表示式的一項基本功能:抽像地描述任意複雜的字串。它的意思是,正規表示式給予程式設計師一種形式化的字串描述方法,只需很少的程式碼即可描述出應用程式遇到的任意字串模式。例如,對於不從事技術工作的人來說,密碼格式的要求可以描述如下:密碼的第一個字符必須是字母,密碼最少4個字符且不超過15個字符,密碼不能包含除字母、數字和下劃線以外的字元。
身為程式設計師,我們必須把上面對密碼格式的自然語言描述轉換成其他形式,使得ASP頁面能夠理解並應用它來防止非法的密碼輸入。描述這個密碼格式的正規表示式是:^[a-zA-Z]w{3,14}$。
在ASP應用程式裡,我們可以把密碼驗證過程寫成可重複使用的函數,如下:
Function TestPassword(strPassword)
Dim re
Set re = new RegExp
re.IgnoreCase = false
re.global = false
re.Pattern = "^[a-zA-Z]w{3,14}$"
TestPassword = re.Test(strPassword)
End Function
下面我們把這個檢驗密碼格式的正規表示式和自然語言描述對比著看看:
密碼的第一個字元必須是字母:正規表示式描述是“^[a-zA-Z]”,其中“ ^」表示字串的開始,連字號告訴RegExp符合指定範圍的所有字元。
密碼最少4個字元且不超過15個字元:正規表示式描述是「{3,14}」。
密碼不能包含除字母、數字和底線以外的字元:正規表示式描述是“w”。
幾點說明:{3,14}表示前面的模式符合至少3個、但不超過14個的字元(加上第一個字元就成了4到15個字元)。注意花括號內的語法要求極為嚴格,不允許在逗號的兩邊加入空格。如果加入了空格,它將對正規表示式的含義產生影響,導緻密碼格式檢定時產生錯誤。另外,上面的正規表示式結尾也沒有加上「$」字元。 $字元使得正規表示式匹配字串直至末尾,確保合法的密碼後面沒有加上任何其他字元。
類似於密碼格式檢驗,檢查email位址的合法性也是一個很常見的問題,用正規表示式進行簡單的email位址檢定可以實現如下:
<%
Dim re
Set re = new RegExp
re.pattern = "^w+@[a-zA-Z_]+?.[a-zA-Z]{2,3}$"
Response.Write re.Test(" [email protected] ")
%>
二、提取HTML頁面的特定部分
從HTML頁面提取內容所面臨的主要問題是,我們必須尋找一種方法精確地識別出自己想要的那一部分內容。例如,下面是一個顯示新聞標題的HTML程式碼片段:
<table border="0" width="11%" class="Somestory">
<tr>
<td width="100%">
<p align="center">其他內容...</td>
</tr>
</table>
<table border="0" width="11%" class="Headline">
<tr>
<td width="100%">
<p align="center">伊拉克戰爭! </td>
</tr>
</table>
<table border="0" width="11%" class="Someotherstory">
<tr>
<td width="100%">
<p align="center">其他內容...</td>
</tr>
</table>
觀察上述程式碼,很容易看出新聞標題由位於中間的表格顯示,它的class屬性設定為Headline。如果HTML頁面非常複雜,使用Microsoft IE從5.0開始提供的一項附加功能可以只查看已選取部分頁面的HTML程式碼,請造訪http://www.microsoft.com/Windows/ie/WebAccess/default.ASP了解詳情。對於本例,我們假定這是唯一class屬性設定為Headline的表格。現在我們要建立正規表示式,透過正規表示式找到這個Headline表格並把這個表格包含到自己的頁面中。首先是寫出支援正規表示式的程式碼:
<%
Dim re, strHTML
Set re = new RegExp ' 建立正規表示式物件
re.IgnoreCase = true
re.Global = false ' 第一次匹配之後結束查找
%>
下面考慮一下我們要提取的區域:在這裡,我們要提取的是整個<table>結構,包括結束標記和新聞標題的文本。因此尋找的起始字元應該是<table>開始標記: re.Pattern = "<table.*(?=Headline)"。這個正規表示式符合表格的開始標記,能夠傳回開始標記直至「Headline」之間的所有內容(換行除外)。下面是回傳已符合HTML程式碼的方法:
' 把所有符合的HTML程式碼放入Matches集合
Set Matches = re.Execute(strHTML)
' 顯示所有符合的HTML程式碼
For Each Item in Matches
Response.Write Item.Value
Next
' 顯示其中一項
Response.write Matches.Item(0).Value
執行這段程式碼處理前面顯示的HTML片段,正規表示式傳回一次符合的內容如下: <table border="0" width="11%" class="。正規表示表達式中的「(?=Headline)」沒有取得字符,所以不能看到表格class屬性的值。 (.|n)*?</table>"。其中:「(.|n)」後面的「*」符合0個到多個任意字元;而「? ”使得“*”匹配範圍最小化,即在找到表達式的下一部分之前匹配盡可能少的字符。</table>是表格的結束標記。
“?”限制符非常重要,它防止了表達式返回
其他表格的程式
碼。
<tr>
<td width="100%">
<p align="center">伊拉克戰爭! </td>
</tr>
</table>
<table border="0" width="11%" class="Someotherstory">
<tr>
<td width="100%">
<p align="center">其他內容...</td>
</tr>
</table>
傳回的內容不僅包含了Headline表的<table>標記,而且還包含了Someotherstory表格,由此可以看出,這裡的「?」是必不可少的。
本例假設了一些相當理想化的前提。實際應用中情況往往要複雜得多,特別是你對正在使用的來源HTML程式碼的編寫沒有任何影響力時,編寫ASP程式碼尤其困難。最有效的方法是,多花點時間分析待擷取內容附近的HTML,經常測試,確保擷取出來的內容正是自己所需要的。另外,應重視並處理正規表示式不能符合來源HTML頁面任何內容的情形。內容的更新可能非常快速,不要只因為別人改變了內容的格式而讓自己的頁面出現低階可笑的錯誤。
三、解析文字資料檔
資料檔的格式和種類很多,XML文件、結構化文字甚至非結構化文字都常成為ASP應用的資料來源。下面我們要看的一個例子是使用限定符的結構化文字檔。限定符(如引號)表示字串各部分不可分割,即使字串內部包含把記錄分隔成欄位的分隔符號也一樣。
下面是一個簡單的結構化文字檔案:
姓,名, 電話, 說明孫,悟空, 312 555 5656, ASP很好豬,八戒, 847 555 5656, 我是電影製片人
這個文件非常簡單,它的第一行是標題,下面兩行是用逗號作為分隔符號的記錄。要解析這個檔案也很簡單,只要先把檔案分割成行(依照換行符號),然後把各個記錄依照欄位分割。但是,如果我們在某個字段內容中加入了逗號:
姓,名, 電話, 說明孫,悟空, 312 555 5656, 我喜歡ASP,還有VB和SQL
豬,八戒, 847 555 5656, 我是電影製片人
解析第一個記錄時就會出現問題,因為在只認可逗號分隔符的解析器看來它的最後一個字段包含了兩個字段的內容。為了避免這類問題,包含分隔符號的欄位必須用限定符包圍。單引號就是一種常用的限定詞。把上面的文字檔加上單引號限定符之後,它的內容如下所示:
姓,名, 電話, 說明孫,悟空, 312 555 5656, '我喜歡ASP,還有VB和SQL'
豬,八戒, 847 555 5656, '我是電影製片人'
現在我們能夠肯定哪一個逗號是分隔符、哪一個逗號是字段內容了,即只需把引號內部出現的逗號視為字段的內容。接下來我們要做的就是實作一個正規表示式解析器,由這個解析器決定何時根據逗號分割欄位、何時把逗號視為欄位內容。
這裡的問題與大多數正規表示式所面臨的略有不同。通常我們查看的是文字的一小部分,看看它是否能夠和正規表示式匹配。但在這裡,只有在考慮了整行文字之後我們才能可靠地判斷哪些內容位於引號之內。
下面是一個說明該問題的例子。從某個文字檔案隨意抽取半行內容,得到:1, 沙灘, 黑色, 21, ', 狗, 貓, 鴨子, ', 。在這個例子中,因為「1」的左邊還有其他數據,要解析清楚它的內容是極為困難的。我們不知道這個資料片段的前面有多少單引號,從而也就無法判斷哪些字元位於引號之內(在引號之內的文字解析時不能分割)。如果這個資料片段之前有偶數個(或沒有)單引號,那麼「', 狗, 貓, 鴨子, '」是用引號界定的字串且不可分割。如果前面的引號數量是奇數,那麼「1, 沙灘, 黑色, 21, '」是某個字串的結束部分且不可分割。
因此,正規表示式必須分析整行文本,全面考慮出現了多少引號才能確定字元是處在引號對的內部還是外部,即:,(?=([^']*'[^']*') *(?![^']*'))。這個正規表示式首先找到一個引號,然後繼續找出並保證逗號後面的單引號數量或是偶數、或者是0。這個正規表示式以下面這個判斷為基礎:如果逗號後面的單引號數量是偶數,那麼這個逗號就位於字串之外。下表給出了更詳細的說明:
, 尋找一個逗號
(?= 繼續向前尋找以符合下面這個模式:
( 開始一個新的模式
[^']*' [非引號字元]0個或多個,然後是一個引號
[^']*'[^']*) [非引號字元]0個或多個,然後是一個引號。結合前面的內容之後它匹配引號對
)* 結束模式並匹配整個模式(引號對)0次或多次
(?! 向前查找,排除此模式
[^']*' [非引號字元]0個或多個,然後是一個引號
) 結束模式
下面是一個VBScript函數,它接受一個字串參數,根據字串中的逗號分隔符號、單引號限定符分割字串,傳回結果陣列:
Function SplitAdv(strInput)
Dim objRE
Set objRE = new RegExp
' 設定RegExp對象
objRE.IgnoreCase = true
objRE.Global = true
objRE.Pattern = ",(?=([^']*'[^']*')*(?![^']*'))"
' Replace方法用chr(8)取代我們要用到的逗號,chr(8)即b
' 字符,b在字串中出現的可能極為微小。
' 然後我們根據b把字串分割儲存到數組
SplitAdv = Split(objRE.Replace(strInput, "b"), "b")
End Function
總而言之,以正規表示式解析文字資料檔案具有高效、縮短開發時間的優點,能夠節省大量分析檔案、根據複雜的條件提取有用資料的時間。在一個快速發展的環境中仍會有許多傳統的數據可資利用,掌握如何建構高效的數據分析例程將是一種寶貴的技能。
四、字串替換
在最後一個例子我們要來看看VBScript正規表示式的替換功能。 ASP經常用於動態地格式化從各種資料來源獲得的文字。利用VBScript正規表示式的強大功能,ASP能夠動態地改變符合的複雜文字。透過加入HTML標記來突顯部分單字就是一種常見的應用,例如突出顯示搜尋結果中的搜尋關鍵字。
為說明實作方法,下面我們來看一個突出顯示字串中所有「.NET」的範例。這個字串可以從任何地方取得,例如資料庫或其他Web網站。
<%
Set regEx = New RegExp
regEx.Global = true
regEx.IgnoreCase = True
' 正規表示式模式,
' 尋找任何結尾為“.NET”的單字或URL。
regEx.Pattern = "(b[a-zA-Z._]+?.NETb)"
' 用於測試替換功能的字串
strText = "微軟建立了一個新網站www.ASP.NET 。"
' 呼叫正規表示式的Replace方法
' $1表示把符合的文字插入目前位置
Response.Write regEx.Replace(strText, _
"<b style='color: #000099; font-size: 18pt'>$1</b>")
%>
這個例子中有幾個重要的地方必須注意。整個正規表示式被放入了一對圓括號中,它的作用是截取所有符合的內容以供以後使用,這些內容在替換文字中透過$1引用。類似的截取每次替換可以使用多達9個,分別透過$1到$9引用。正規表示式的Replace方法和VBScript本身的Replace函數不同,它只需要兩個參數:被搜尋的文本,替換用的文本。
在這個例子中,為了突出顯示搜尋到的“.NET”字串,我們用粗體標記以及其他樣式屬性來包圍這些字串。使用這種搜尋和取代技術,我們能夠輕鬆地為網站搜尋程式加上突出顯示搜尋關鍵字的功能,或自動為頁面中出現的關鍵字加上其他頁面的連結。
結論
希望本文介紹的幾種正規表示式技巧對你在何時、如何應用正規表示式有所啟發。雖然本文的例子用VBScript編寫,但在ASP.NET中正則表達式同樣也大有用武之地,它是伺服器端控件表單檢驗的主要機制之一,而且透過System.Text.RegularExpressions命名空間導出到了整個. NET框架之中。