用PHP讀取和寫XML DOM

作者：Eve Cole 更新時間：2009-06-01 18:21:45

有許多技術可用於用PHP 讀取和編寫XML。本文提供了三種方法讀取XML：使用DOM 函式庫、使用SAX 解析器和使用正規表示式。也介紹了使用DOM 和PHP 文字範本編寫XML。

用PHP 讀取和編寫可擴展標記語言（XML）看起來可能有點恐怖。實際上，XML 和它的所有相關技術可能是恐怖的，但用PHP 讀取和編寫XML 不一定是項目恐怖的任務。首先，需要學習一點關於XML 的知識── 它是什麼，要用它做什麼。然後，需要學習如何用PHP 讀取和編寫XML，而有許多種方式可以做這件事。

本文提供了XML 的簡短入門，然後解釋如何用PHP 讀取和編寫XML。

什麼是XML？

XML 是一種資料儲存格式。它沒有定義要保存什麼數據，也沒有定義數據的格式。 XML 只是定義了標記和這些標記的屬性。格式良好的XML 標記看起來像這樣：

＜name＞Jack Herrington＜/name＞

這個＜name＞標記包含一些文字：Jack Herrington。

不包含文字的XML 標記看起來像這樣：

＜powerUp /＞

用XML 對某件事進行寫的方式不只一種。例如，這個標記形成的輸出與前一個標記相同：

＜powerUp＞＜/powerUp＞

也可以為XML 標記新增屬性。例如，這個＜name＞標記包含first 和last 屬性：

＜name first="Jack" last="Herrington" /＞

也可以用XML 對特殊字元進行編碼。例如，& 符號可以像這樣編碼：

&

包含標記和屬性的XML 檔案如果像範例一樣格式化，就是格式良好的，這表示標記是對稱的，字元的編碼正確。清單1 是一份格式良好的XML 的範例。

清單1. XML 圖書列表範例

 
  ＜books＞ 
  ＜book＞ 
  ＜author＞Jack Herrington＜/author＞ 
  ＜title＞PHP Hacks＜/title＞ 
  ＜publisher＞O'Reilly＜/publisher＞ 
  ＜/book＞ 
  ＜book＞ 
  ＜author＞Jack Herrington＜/author＞ 
  ＜title＞Podcasting Hacks＜/title＞ 
  ＜publisher＞O'Reilly＜/publisher＞ 
  ＜/book＞ 
  ＜/books＞

清單1 中的XML 包含一個圖書清單。父標記＜books＞包含一組＜book＞標記，每個＜book＞標記又包含＜author＞、＜title＞和＜publisher＞標記。

當XML 文件的標記結構和內容得到外部模式文件的驗證後，XML 文件就是正確的。模式檔案可以用不同的格式指定。對本文來說，所需要的只是格式良好的XML。

如果覺得XML 看起來很像超文本標記語言（HTML），那就對了。 XML 和HTML 都是基於標記的語言，它們有許多相似之處。但是，要著重指出的是：雖然XML 文件可能是格式良好的HTML，但並非所有的HTML 文件都是格式良好的XML。換行標記（br）是XML 和HTML 之間差異的一個好例子。這個換行標記是格式良好的HTML，但不是格式良好的XML：

＜p＞This is a paragraph＜br＞
With a line break＜/p＞

這個換行標記是格式良好的XML 和HTML：

＜p＞This is a paragraph＜br /＞
With a line break＜/p＞

如果要把HTML 寫成同樣是格式良好的XML，請遵循W3C 委員會的可擴展超文本標記語言（XHTML）標準（請參閱參考資料）。所有現代的瀏覽器都能呈現XHTML。而且，還可以用XML 工具讀取XHTML 並找出文件中的數據，這比解析HTML 容易得多。

使用DOM 庫讀取XML

讀取格式良好的XML 檔案最容易的方式是使用編譯成某些PHP 安裝的文件物件模型（DOM）函式庫。 DOM 函式庫把整個XML 文件讀入內存，並用節點樹表示它，如圖1 所示。

圖1. 圖書XML 的XML DOM 樹
圖書 XML 的 XML DOM 樹

樹頂部的books 節點有兩個book 子標記。在每本書中，有author、publisher 和title 幾個節點。 author、publisher 和title 節點分別有包含文字的文字子節點。

讀取圖書XML 檔案並以DOM 顯示內容的程式碼如清單2 所示。

清單2. 用DOM 讀圖書XML

 
  ＜?php 
  $doc = new DOMDocument(); 
  $doc-＞load( 'books.xml' ); 
   
  $books = $doc-＞getElementsByTagName( "book" ); 
  foreach( $books as $book ) 
  { 
  $authors = $book-＞getElementsByTagName( "author" ); 
  $author = $authors-＞item(0)-＞nodeValue; 
   
  $publishers = $book-＞getElementsByTagName( "publisher" ); 
  $publisher = $publishers-＞item(0)-＞nodeValue; 
   
  $titles = $book-＞getElementsByTagName( "title" ); 
  $title = $titles-＞item(0)-＞nodeValue; 
   
  echo "$title - $author - $publishern"; 
  } 
  ?＞

腳本先建立一個new DOMdocument 對象，用load 方法把圖書XML 裝入這個對象。之後，腳本用getElementsByName 方法得到指定名稱下的所有元素的清單。

在book 節點的迴圈中，腳本用getElementsByName 方法取得author、publisher 和title 標記的nodeValue。 nodeValue 是節點中的文字。腳本然後顯示這些值。

可以在命令列上像這樣執行PHP 腳本：

% php e1.php
PHP Hacks - Jack Herrington - O'Reilly
Podcasting Hacks - Jack Herrington - O'Reilly
%

可以看到，每個圖書塊輸出一行。這是一個好的開始。但是，如果無法存取XML DOM 函式庫該怎麼辦？

用SAX 解析器讀取XML

讀取XML 的另一種方法是使用XML Simple API（SAX）解析器。 PHP 的大多數安裝都包含SAX 解析器。 SAX 解析器運行在回呼模型上。每次開啟或關閉一個標記時，或每次解析器看到文字時，就用節點或文字的資訊回呼使用者定義的函數。

SAX 解析器的優點是，它是真正輕量級的。解析器不會在記憶體中長期保持內容，所以可以用於非常巨大的檔案。缺點是編寫SAX 解析器回呼是件非常麻煩的事。清單3 顯示了使用SAX 讀取圖書XML 檔案並顯示內容的程式碼。

清單3. 用SAX 解析器讀取圖書XML

 
  ＜?php 
  $g_books = array(); 
  $g_elem = null; 
   
  function startElement( $parser, $name, $attrs )  
  { 
  global $g_books, $g_elem; 
  if ( $name == 'BOOK' ) $g_books []= array(); 
  $g_elem = $name; 
  } 
   
  function endElement( $parser, $name )  
  { 
  global $g_elem; 
  $g_elem = null; 
  } 
   
  function textData( $parser, $text ) 
  { 
  global $g_books, $g_elem; 
  if ( $g_elem == 'AUTHOR' || 
  $g_elem == 'PUBLISHER' || 
  $g_elem == 'TITLE' ) 
  { 
  $g_books[ count( $g_books ) - 1 ][ $g_elem ] = $text; 
  } 
  } 
   
  $parser = xml_parser_create(); 
   
  xml_set_element_handler( $parser, "startElement", "endElement" ); 
  xml_set_character_data_handler( $parser, "textData" ); 
   
  $f = fopen( 'books.xml', 'r' ); 
   
  while( $data = fread( $f, 4096 ) ) 
  { 
  xml_parse( $parser, $data ); 
  } 
   
  xml_parser_free( $parser ); 
   
  foreach( $g_books as $book ) 
  { 
  echo $book['TITLE']." - ".$book['AUTHOR']." - "; 
  echo $book['PUBLISHER']."n"; 
  } 
  ?＞

腳本首先設定g_books 數組，它在內存中容納所有圖書和圖書信息，g_elem 變量保存腳本目前正在處理的標記的名稱。然後腳本定義回調函數。在這個範例中，回呼函數是startElement、endElement 和textData。在開啟和關閉標記的時候，分別呼叫startElement 和endElement 函數。在開始和結束標記之間的文字上面，呼叫textData。

在這個範例中，startElement 標記查找book 標記，在book 陣列中開始一個新元素。然後，textData 函式會查看目前元素，看它是不是publisher、title 或author 標記。如果是，函數就把目前文字放入目前圖書。

為了讓解析繼續，腳本用xml_parser_create 函數建立解析器。然後，設定回調句柄。之後，腳本讀取檔案並把檔案的大塊內容傳送到解析器。在檔案讀取之後，xml_parser_free 函數刪除解析器。腳本的末尾輸出g_books 陣列的內容。

可以看到，這比編寫DOM 的相同功能要困難得多。如果沒有DOM 函式庫也沒有SAX 函式庫該怎麼辦？還有替代方案麼？

用正規表示式解析XML

可以肯定，即使提到這個方法，有些工程師也會批評我，但確實可以用正規表示式解析XML。清單4 顯示了使用preg_ 函數讀取圖書檔案的範例。

清單4. 用正規表示式讀取XML

 
  ＜?php 
  $xml = ""; 
  $f = fopen( 'books.xml', 'r' ); 
  while( $data = fread( $f, 4096 ) ) { $xml .= $data; } 
  fclose( $f ); 
   
  preg_match_all( "/＜book＞(.*?)＜/book＞/s",  
  $xml, $bookblocks ); 
   
  foreach( $bookblocks[1] as $block ) 
  { 
  preg_match_all( "/＜author＞(.*?)＜/author＞/",  
  $block, $author ); 
  preg_match_all( "/＜title＞(.*?)＜/title＞/",  
  $block, $title ); 
  preg_match_all( "/＜publisher＞(.*?)＜/publisher＞/",  
  $block, $publisher ); 
  echo( $title[1][0]." - ".$author[1][0]." - ". 
  $publisher[1][0]."n" ); 
  } 
  ?＞

請注意這個代碼有多短。開始時，它把檔案讀進一個大的字串。然後用一個regex 函數讀取每個圖書項目。最後用foreach 循環，在每個圖書區塊間循環，並提取出author、title 和publisher。

那麼，缺陷在哪呢？使用正規表示式程式碼讀取XML 的問題是，它並沒有先進行檢查，確保XML 的格式良好。這意味著在讀取之前，無法知道XML 是否格式良好。而且，有些格式正確的XML 可能與正規表示式不匹配，所以日後必須修改它們。

我從不建議使用正規表示式讀取XML，但是有時它是相容性最好的方式，因為正規表示式函數總是可用的。不要用正規表示式讀取直接來自使用者的XML，因為無法控制這類XML 的格式或結構。應一直用DOM 函式庫或SAX 解析器讀取來自使用者的XML。

用DOM 編寫XML

讀取XML 只是公式的一部分。該怎樣編寫XML 呢？寫XML 最好的方式就是用DOM。清單5 顯示了DOM 建立圖書XML 檔案的方式。

清單5. 用DOM 寫圖書XML

 
  ＜?php 
  $books = array(); 
  $books [] = array( 
  'title' =＞ 'PHP Hacks', 
  'author' =＞ 'Jack Herrington', 
  'publisher' =＞ "O'Reilly" 
  ); 
  $books [] = array( 
  'title' =＞ 'Podcasting Hacks', 
  'author' =＞ 'Jack Herrington', 
  'publisher' =＞ "O'Reilly" 
  ); 
   
  $doc = new DOMDocument(); 
  $doc-＞formatOutput = true; 
   
  $r = $doc-＞createElement( "books" ); 
  $doc-＞appendChild( $r ); 
   
  foreach( $books as $book ) 
  { 
  $b = $doc-＞createElement( "book" ); 
   
  $author = $doc-＞createElement( "author" ); 
  $author-＞appendChild( 
  $doc-＞createTextNode( $book['author'] ) 
  ); 
  $b-＞appendChild( $author ); 
   
  $title = $doc-＞createElement( "title" ); 
  $title-＞appendChild( 
  $doc-＞createTextNode( $book['title'] ) 
  ); 
  $b-＞appendChild( $title ); 
   
  $publisher = $doc-＞createElement( "publisher" ); 
  $publisher-＞appendChild( 
  $doc-＞createTextNode( $book['publisher'] ) 
  ); 
  $b-＞appendChild( $publisher ); 
   
  $r-＞appendChild( $b ); 
  } 
   
  echo $doc-＞saveXML(); 
  ?＞

在腳本的頂部，用一些範例圖書裝入了books 陣列。這個數據可以來自使用者也可以來自資料庫。

範例圖書裝入之後，腳本建立一個new DOMDocument，並把根節點books 加到它。然後腳本為每本書的author、title 和publisher 建立節點，並為每個節點新增文字節點。每個book 節點的最後一步是重新把它加到根節點books。

腳本的最後用saveXML 方法把XML 輸出到控制台。（也可以用save 方法建立一個XML 檔案。）腳本的輸出如清單6 所示。

清單6. DOM 建置腳本的輸出

 
  % php e4.php  
  ＜?xml version="1.0"?＞ 
  ＜books＞ 
  ＜book＞ 
  ＜author＞Jack Herrington＜/author＞ 
  ＜title＞PHP Hacks＜/title＞ 
  ＜publisher＞O'Reilly＜/publisher＞ 
  ＜/book＞ 
  ＜book＞ 
  ＜author＞Jack Herrington＜/author＞ 
  ＜title＞Podcasting Hacks＜/title＞ 
  ＜publisher＞O'Reilly＜/publisher＞ 
  ＜/book＞ 
  ＜/books＞ 
  %

使用DOM 的真正價值在於它所建立的XML 總是格式正確的。但是如果不能用DOM 建立XML 時該怎麼辦？

用PHP 寫XML

如果DOM 不可用，可以用PHP 的文字範本編寫XML。清單7 顯示了PHP 如何建立圖書XML 檔案。

清單7. 用PHP 寫圖書XML

 
  ＜?php 
  $books = array(); 
  $books [] = array( 
  'title' =＞ 'PHP Hacks', 
  'author' =＞ 'Jack Herrington', 
  'publisher' =＞ "O'Reilly" 
  ); 
  $books [] = array( 
  'title' =＞ 'Podcasting Hacks', 
  'author' =＞ 'Jack Herrington', 
  'publisher' =＞ "O'Reilly" 
  ); 
  ?＞ 
  ＜books＞ 
  ＜?php 
   
  foreach( $books as $book ) 
  { 
  ?＞ 
  ＜book＞ 
  ＜title＞＜?php echo( $book['title'] ); ?＞＜/title＞ 
  ＜author＞＜?php echo( $book['author'] ); ?＞ 
  ＜/author＞ 
  ＜publisher＞＜?php echo( $book['publisher'] ); ?＞ 
  ＜/publisher＞ 
  ＜/book＞ 
  ＜?php 
  } 
  ?＞ 
  ＜/books＞

腳本的頂部與DOM 腳本類似。腳本的底部打開books 標記，然後在每個書籍中迭代，建立book 標記和所有的內部title、author 和publisher 標記。

這種方法的問題是對實體進行編碼。為了確保實體編碼正確，必須在每個項目上呼叫htmlentities 函數，如清單8 所示。

清單8. 使用htmlentities 函數對實體編碼

  
  ＜books＞ 
  ＜?php 
   
  foreach( $books as $book ) 
  { 
  $title = htmlentities( $book['title'], ENT_QUOTES ); 
  $author = htmlentities( $book['author'], ENT_QUOTES ); 
  $publisher = htmlentities( $book['publisher'], ENT_QUOTES ); 
  ?＞ 
  ＜book＞ 
  ＜title＞＜?php echo( $title ); ?＞＜/title＞ 
  ＜author＞＜?php echo( $author ); ?＞ ＜/author＞ 
  ＜publisher＞＜?php echo( $publisher ); ?＞ 
  ＜/publisher＞ 
  ＜/book＞ 
  ＜?php 
  } 
  ?＞ 
  ＜/books＞

這就是用基本的PHP 來寫XML 的煩人之處。您以為自己創建了完美的XML，但是在試圖使用資料的時候，馬上就會發現某些元素的編碼不正確。

結束語

XML 周圍總有許多誇大之處和混淆之處。但是，並不像您想像的那麼難—— 特別是在PHP 這樣優秀的語言中。在理解並正確地實現了XML 之後，就會發現有許多強大的工具可以使用。 XPath 和XSLT 就是這樣兩個值得研究的工具。