首页 > > 网络编程 > Php编程 >

用PHP读取和编写XML DOM(2)

2008-02-23 06:27:46来源：互联网阅读 ()

　　SAX 解析器的优点是，它是真正轻量级的。解析器不会在内存中长期保持内容，所以可以用于非常巨大的文件。缺点是编写 SAX 解析器回调是件非常麻烦的事。清单 3 显示了使用 SAX 读取图书 XML 文件并显示内容的代码。

　　清单 3. 用 SAX 解析器读取图书 XML

 

  ＜?php 

  $g_books = array(); 

  $g_elem = null; 

   

  function startElement( $parser, $name, $attrs )  

  { 

  global $g_books, $g_elem; 

  if ( $name == 'BOOK' ) $g_books []= array(); 

  $g_elem = $name; 

  } 

   

  function endElement( $parser, $name )  

  { 

  global $g_elem; 

  $g_elem = null; 

  } 

   

  function textData( $parser, $text ) 

  { 

  global $g_books, $g_elem; 

  if ( $g_elem == 'AUTHOR' || 

  $g_elem == 'PUBLISHER' || 

  $g_elem == 'TITLE' ) 

  { 

  $g_books[ count( $g_books ) - 1 ][ $g_elem ] = $text; 

  } 

  } 

   

  $parser = xml_parser_create(); 

   

  xml_set_element_handler( $parser, "startElement", "endElement" ); 

  xml_set_character_data_handler( $parser, "textData" ); 

   

  $f = fopen( 'books.xml', 'r' ); 

   

  while( $data = fread( $f, 4096 ) ) 

  { 

  xml_parse( $parser, $data ); 

  } 

   

  xml_parser_free( $parser ); 

   

  foreach( $g_books as $book ) 

  { 

  echo $book['TITLE']." - ".$book['AUTHOR']." - "; 

  echo $book['PUBLISHER']."\n"; 

  } 

  ?＞

　　脚本首先设置 g_books 数组，它在内存中容纳所有图书和图书信息，g_elem 变量保存脚本目前正在处理的标记的名称。然后脚本定义回调函数。在这个示例中，回调函数是 startElement、endElement 和 textData。在打开和关闭标记的时候，分别调用 startElement 和 endElement 函数。在开始和结束标记之间的文本上面，调用 textData。

　　在这个示例中，startElement 标记查找 book 标记，在 book 数组中开始一个新元素。然后，textData 函数查看当前元素，看它是不是 publisher、title 或 author 标记。如果是，函数就把当前文本放入当前图书。

　　为了让解析继续，脚本用 xml_parser_create 函数创建解析器。然后，设置回调句柄。之后，脚本读取文件并把文件的大块内容发送到解析器。在文件读取之后，xml_parser_free 函数删除解析器。脚本的末尾输出 g_books 数组的内容。

　　可以看到，这比编写 DOM 的同样功能要困难得多。如果没有 DOM 库也没有 SAX 库该怎么办？还有替代方案么？

　　用正则表达式解析 XML

　　可以肯定，即使提到这个方法，有些工程师也会批评我，但是确实可以用正则表达式解析 XML。清单 4 显示了使用 preg_ 函数读取图书文件的示例。

　　清单 4. 用正则表达式读取 XML

 

  ＜?php 

  $xml = ""; 

  $f = fopen( 'books.xml', 'r' ); 

  while( $data = fread( $f, 4096 ) ) { $xml .= $data; } 

  fclose( $f ); 

   

  preg_match_all( "/\＜book\＞(.*?)\＜\/book\＞/s",  

  $xml, $bookblocks ); 

   

  foreach( $bookblocks[1] as $block ) 

  { 

  preg_match_all( "/\＜author\＞(.*?)\＜\/author\＞/",  

  $block, $author ); 

  preg_match_all( "/\＜title\＞(.*?)\＜\/title\＞/",  

  $block, $title ); 

  preg_match_all( "/\＜publisher\＞(.*?)\＜\/publisher\＞/",  

  $block, $publisher ); 

  echo( $title[1][0]." - ".$author[1][0]." - ". 

  $publisher[1][0]."\n" ); 

  } 

  ?＞

　　请注意这个代码有多短。开始时，它把文件读进一个大的字符串。然后用一个 regex 函数读取每个图书项目。最后用 foreach 循环，在每个图书块间循环，并提取出 author、title 和 publisher。

　　那么，缺陷在哪呢？使用正则表达式代码读取 XML 的问题是，它并没先进行检查，确保 XML 的格式良好。这意味着在读取之前，无法知道 XML 是否格式良好。而且，有些格式正确的 XML 可能与正则表达式不匹配，所以日后必须修改它们。

　　我从不建议使用正则表达式读取 XML，但是有时它是兼容性最好的方式，因为正则表达式函数总是可用的。不要用正则表达式读取直接来自用户的 XML，因为无法控制这类 XML 的格式或结构。应当一直用 DOM 库或 SAX 解析器读取来自用户的 XML。

　　用 DOM 编写 XML

　　读取 XML 只是公式的一部分。该怎样编写 XML 呢？编写 XML 最好的方式就是用 DOM。清单 5 显示了 DOM 构建图书 XML 文件的方式。

　　　清单 5. 用 DOM 编写图书 XML

 

  ＜?php 

  $books = array(); 

  $books [] = array( 

  'title' =＞ 'PHP Hacks', 

  'author' =＞ 'Jack Herrington', 

  'publisher' =＞ "O'Reilly" 

  ); 

  $books [] = array( 

  'title' =＞ 'Podcasting Hacks', 

  'author' =＞ 'Jack Herrington', 

  'publisher' =＞ "O'Reilly" 

  ); 

   

  $doc = new DOMDocument(); 

  $doc-＞formatOutput = true; 

   

  $r = $doc-＞createElement( "books" ); 

  $doc-＞appendChild( $r ); 

   

  foreach( $books as $book ) 

  { 

  $b = $doc-＞createElement( "book" ); 

   

  $author = $doc-＞createElement( "author" ); 

  $author-＞appendChild( 

  $doc-＞createTextNode( $book['author'] ) 

  ); 

  $b-＞appendChild( $author ); 

   

  $title = $doc-＞createElement( "title" ); 

  $title-＞appendChild( 

  $doc-＞createTextNode( $book['title'] ) 

  ); 

  $b-＞appendChild( $title ); 

   

  $publisher = $doc-＞createElement( "publisher" ); 

  $publisher-＞appendChild( 

  $doc-＞createTextNode( $book['publisher'] ) 

  ); 

  $b-＞appendChild( $publisher ); 

   

  $r-＞appendChild( $b ); 

  } 

   

  echo $doc-＞saveXML(); 

  ?＞

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：php与XML、XSLT、Mysql的结合运用，代码篇

下一篇：更好的构造开发模板五种PHP设计模式

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

最新资讯

热门关注