文件格式的排錯我媽媽_的清單中有數十條食譜,甚至數百條。如果產生一個致命錯誤,排錯將非常困難- 你將一行一行地尋找丟失的標記符。如果使用幾層嵌套,發現錯誤將很困難。
但是可以找到很好的幫助。分析器- XML代碼和報告格式錯誤的應用程式可以在網路上免費取得。其中最好的是Lark,它的作者是由Tim Bray - XML規範的技術編輯和極力鼓吹者,地球上最聰明的人之一。
我用Lark分析下面的程式碼。注意"chocolate chips"和它的關閉標記出現在</ingredients> 標記符中的位置有錯誤:
<?xml version="1.0"?>
<list>
<recipe>
<author>Carol Schmidt</author>
<recipe_name>Chocolate Chip Bars</recipe_name>
<meal>Dinner
<course>Dessert</course>
</meal>
<ingredients>
<item>2/3 C butter</item>
<item>2 C brown sugar</ item>
<item>1 tsp vanilla</item>
<item>1 3/4 C unsifted all-purpose flour</item>
<item>1 1/2 tsp baking powder</item>
<item>1/2 tsp salt</item>
<item>3 eggs</item>
<item>1/2 C chopped nuts</item>
<item>
</ingredients>2 cups (12-oz pkg.) semi-sweet choc.
chips< /item>
<directions>
Preheat overn to 350 degrees. Melt butter;
combine with brown sugar and vanilla in large mixing bowl.
Set aside to cool. Combine flour, baking powder, and salt; set aside cool. Combine flour, baking powder, and salt; set aside cool
p beat well. Stir in reserved dry
ingredients, nuts, and chips.
Spread in greased 13-by-9-inch pan. Bake for 25 to 30 minutes
until golden brown; cool. Cut into squares.
</directions>
</diripe>
</list>
以下是分析器回傳的結果:
Error Report
Line 17, column 22: Encountered </ingredients> expected </item>
... assumed </item>
Line 18, column 36: Encountered </item> withitem> Line 18, column 36: Encountered </item> with no start-tag.
有了這種訊息,找到錯誤將不會成為問題。那麼XML檔案的有效性是指什麼呢?
實現有效性最終我們將在組織良好的XML文件中加入資訊。實際上,我們有很多事要做- 仍然有危機潛伏- 雖然XML文件組織良好,
但還可能遺失關鍵資訊。看看下面的範例:
<recipe>
<author>Carol Schmidt</author>
<recipe_name>Chocolate Chip Bars</recipe_name>
<meal>Dinner <course>Dessert</course> </meal>
<ingredients> </ingredients>
<directions>Melt butter; combine with, etc. ... </directions>
</recipe>
這份食譜中沒有包含ingredient,而且因為它組織得很好,所以
Lark分析器也不會發現問題。管理過即使是最和善的資料庫的人都知道我們人類常犯的錯誤:如果有機會,我們會丟掉關鍵資訊並加入無用的廢話。這就是為什麼XML的發明者引入DTD -
文檔類型定義(Document Type Definition)。 DTD提供了一種保證XML或多或少是你所想的方法。
讓我們看看用在食譜上的一個DTD。
<!DOCTYPE list [
<!ELEMENT recipe (recipe_name, author, meal, ingredients, directions)>
<!ELEMENT ingredients (item+)>
<!ELEMENT meal (#PCDATA, course?)>
<!ELEMENT item (#PCDATA, sub_item*)>
<!ELEMENT recipe_name (#PCDATA)>
<!ELEMENT author (#PCDATA)>
<!ELEMENT course (#PCDATA)>
<!ELEMENT item (#PCDATA)>
<!ELEMENT subitem (#PCDATA)>
<!ELEMENT directions (#PCDATA)>
]>
這些代碼起初看起來不夠友好,但當把它分解時卻能看出其中的意義。讓我們詳細解釋:
<!DOCTYPE list [
這行是說,包含在方括號中的是具有根元素<list>的某個文檔的
DTD。如我們以前提到的,根元素包含所有其它元素。
<!ELEMENT recipe (recipe_name, meal, ingredients, directions)>
這行定義了<recipe>標記。圓括號是說其中的四種標記必須依照順序出現在<recipe>標記符中。
<!ELEMENT meal (#PCDATA, course?)>
這行需要詳細的解釋。我定義了以下的結構:
<meal>Here the meal name is mandatory
<course>One course name may appear, but it is not
mandatory</course>
</meal>
我這樣做是因為,按照我的想法,午餐不一定特定某道菜,但是晚餐可能要指出開胃食品、主菜和餐後甜點。透過指定
#PCDATA - 表示經過分析的字元資料(即非二進位資料)來實現這個功能。這裡,#PCDATA是文本- 例如,“dinner”。
"course"後面的問號表示0或1對<course>標記符將出現在<meal>
標記符內。
現在讓我們來看看下一行:
<!ELEMENT ingredients (item+)>
這裡的加號表示至少有一對<item>標記符應出現在<ingredients>
標記符內。
我們感興趣的最後一行是:
<!ELEMENT item (#PCDATA, sub_item*)>
我把sub_item*當作一項安全措施。除了要求每個item的文字之外,我希望計算每個item的內容的數量。星號是說在<item>標記符中可以有子條目的數目。我不需要Chocolate Chip Bars食譜的任何子條目,但是當它的組成成分很複雜時就用得著。
現在讓我們把這些放在一起看看我們能得到什麼。
DTD的完整例子下面是一個完整的例子。我把另一個食譜加入文件內,並為
DTD做了註解。可以注意到我在第二個食譜中用到子條目。
<?xml version="1.0"?>
<!--This starts the DTD. The first four lines address document structure-->
<!DOCTYPE list ][
<!ELEMENT recipe (recipe_name, author, meal, ingredients,directions)>
<!ELEMENT ingredients (item+)>
<!ELEMENT meal (#PCDATA, course?)>
<!ELEMENT item (#PCDATA, sub_item*)>
<!--These are the remaining elements of the recipe tag -->
<!ELEMENT recipe_name (#PCDATA)>
<!ELEMENT author (#PCDATA)>
<!ELEMENT directions (#PCDATA)>
<!--The remaining element of the meal tag -->
<!ELEMENT course (#PCDATA)>
<!--The remaining element of the item tag -->
<!ELEMENT sub_item (#PCDATA)>
]>
<?xml version="1.0"?>
<list>
<recipe>
<author>Carol Schmidt</author>
<recipe_name>Chocolate Chip Bars</recipe_name>
<meal>Dinner
<course>Dessert</course>
</meal>
<ingredients>
<item>2/3 C butter</item>
<item>2 C brown sugar</item>
<item>1 tsp vanilla</item>
<item>1 3/4 C unsifted all-purpose flour</item>
<item>1 1/2 tsp baking powder</item>
<item>1/2 tsp salt</item>
<item>3 eggs</item>
<item>1/2 C chopped nuts</item>
<item>2 cups (12-oz pkg.) semi-sweetchoc. chips</item>
</ingredients>
<directions>
Preheat oven 至 350 degrees. Melt butter;
combinewith brown sugar and vanilla in large mixing bowl.
Set aside to cool. Combine flour, baking powder, andsalt;
set aside.Add eggs to cooled sugar mixture; beat well.
Stir in reserved dry ingredients, nuts, and chips.
Spread in greased 13-by-9-inch pan.
Bake for 25 to 30minutes until golden brown; cool.
Cut into squares.
</directions>
</recipe>
<recipe>
<recipe_name>Pasta with tomato Sauce</recipe_name>
<meal>Dinner
<course>Entree</course>
</meal>
<ingredients>
<item>1 lb spaghetti</item>
<item>1 16-oz can diced tomatoes</item>
<item>4 cloves garlic</item>
<item>1 diced onion</item>
<item>Italian seasoning
<sub_item>oregano</sub_item>
<sub_item>basil</sub_item>
<sub_item>crushed red pepper</sub_item>
</item>
</ingredients>
<directions>
Boil pasta. Sauté garlic and onion.
Add tomatoes.Serve hot.
</directions>
</recipe>
</list>
既然有DTD,文件將被檢查是否符合DTD所做的限制。換句話說,我們要保證文檔的有效性。
為了達到這個目的,我們需要另一個工具:有效性分析器。微軟的MSXML,一個基於Java的程序,使用容易又運作得很好。上面的文檔經過這個程序的檢查後沒有發現錯誤。但是如果我檢查一個
ingredient標記符中沒有包含條目的食譜,將會傳回以下資訊:
ingredients is not complete. Expected elements [item].